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云 计 算 与 分 布 式 系 统 从 并 行 处 理 到 物 联 网 


Distributed and Cloud Computing From Parallel Processing to the Internet of Things 


新 兴 领 域 近 几 年 日 益 受 到 学 术 界 和 工业 界 的 关注 。 预计 这 些 新 技 


“网 格 计算 、 对 等 计算 、 云 计算 这 些 
等 众多 方面 产生 巨大 影响 ， 本 书 的 及 时 出 版 将 会 帮助 读者 了 解 分 布 式 计算 


术 将 对 商业 、 科 学 和 工程 及 社会 等 
领域 的 最 新 技术 

一 一 Yi Pan, 佐治 亚 州立 大 学 

“本 书 是 一 本 全 面 而 新 颖 的 教材 ， 内 容 履 盖 高 性 能 计算 、 分 布 式 与 云 计算 、 庶 拟 化 和 网 格 计算 作者 

将 应 用 与 技术 趋势 相 结合 ， 揭 示 了 计算 的 未 来 发 展 ， 无 论 是 对 在 校 学 生还 是 经 验 丰富 的 实践 者 ， 本 书 都 是 

一 本 优秀 的 读物 


一 一 Thomas J. Hacker, 普度 大 学 


随 着 信息 技术 的 广泛 应 用 和 快速 发 展 ， 云 计算 作为 一 种 新 兴 的 商业 计算 模型 日 益 受 到 人 们 的 广泛 关注 。 本 
书 是 一 本 完整 讲述 云 计算 与 分 布 式 系统 基本 理论 及 其 应 用 的 教材 。 书 中 从 现代 分 布 式 模型 概述 开始 ， 介 绍 了 并 
行 、 分 布 式 与 云 计算 系统 的 设计 原理 、 系 统 体系 结构 和 创新 应 用 ， 并 通过 开源 应 用 和 商业 应 用 例子 ， 阐 述 了 如 
何 为 科研 、 电 子 商 务 、 社 会 网 络 和 超级 计算 等 创建 高 性 能 、 可 扩展 的 、 可 靠 的 系统 。 


本 书 特 色 
。 全 面 覆盖 现代 分 布 式 计算 技术 ， 包 括 集群 、 网 格 、 面 向 服务 的 体系 结构 、 大 规模 并 行 处 理 器 、 对 等 网 络 和 
云 计算 。 


o 提供 的 案例 研究 来 自主 流 分 布 式 计算 供应 商 ， 如 亚马逊 、 微 软 、 谷 歌 等 。 

o 解释 如 何 利用 虚拟 化 来 促进 管理 、 调 试 、 迁 移 和 灾难 恢复 。 

e 专 为 本 科 生 或 研究 生 的 分 布 式 系统 课程 而 设计 一 一 每 章 后 都 配 有 习题 和 进一步 阅读 建议 ， 并 为 教师 提供 配 
套 的 PPT 等 教 辅 资源 。 
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随 着 信息 技术 的 广泛 应 用 和 快速 发 展 ， 云 计算 作为 一 种 新 兴 的 商业 计算 模型 日 益 受到 人 们 的 广泛 关 
注 。 本 书 是 一 本 完整 讲述 云 计算 与 分 布 式 系统 基本 理论 及 其 应 用 的 教材 。 书 中 从 现代 分 布 式 模型 概述 开 
to, 介绍 了 并 行 、 分 布 式 与 云 计算 系统 的 设计 原理 、 系 统 体系 结构 和 创新 应 用 ， 并 通过 开源 应 用 和 商业 应 
用 例子 ， 阐 述 了 如 何 为 科研 、 电 子 商 务 、 社 会 网 络 和 超级 计算 等 创建 高 性 能 、 可 扩展 、 可 人 靠 的 系统 。 

本 书 内 容 丰 富 ， 狗 述 深 入 浅 出 ， 适 合作 为 计算 机 及 相关 专业 云 计算 、 分 布 式 系统 或 分 布 式 计算 课程 的 
教材 ， 同 时 也 适合 专业 技术 人 员 参 考 使 用 。 
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者 的 话 


Distributed and Cloud Computing, 1E 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 领域 
取得 了 化 断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 独 领 风 骚 。 
在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 学 科 中 的 许多 泰山 北斗 同时 身 
处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 
既 遵 循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 益 迫 切 。 
这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 
在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 和 发 展 
的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 
发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 我 们 就 将 工作 重点 
WETH., PZDR E. ATZERRI, Ri Pearson, McGraw-Hill, Elsevier, 
MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教 
材 中 杜 选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. Kernighan, Dennis Ritchie, Jim Gray, 
Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, Donald E. 
Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 从 书 ” 为 总 
称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 中 肯 的 选 
题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 
的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 这 些 书 籍 在 读 
者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影印 版 “经 典 原版 书库 ”作为 
姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 书 有 了 
质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 
计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达 
到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联 
系 方法 如 下 : 


华章 网 站 : www. hzbook. com 
电子 邮件 : hzjsj@hzbook. com 
联系 电话 : (010) 88379604 


联系 地 址 ;北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 
邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 














中 文 版 序 


Distributed and Cloud Computing, 1E 


本 书 是 《Distributed and Cloud Computing: From Parallel Processing to the Internet of Things) 的 中 译 
本 ， 其 英文 原版 由 美国 的 Morgan Kaufmann 出 版 公司 于 2011 年 出 版 发 行 。 机 械 工业 出 版 社 华章 公司 获 
得 了 本 书 的 影印 版 授权 ， 并 于 2012 年 在 国内 影印 出 版 。 本 书 适 合作 为 高 等 院 校 计算 机 相关 专业 的 教 
材 ， 也 适合 作为 专业 技术 人 员 的 参考 书籍 。 

我 于 2007 年 在 美国 南 加 州 大 学 开始 筹划 此 书 。2008 年 ， 我 在 中 国 科学 院 计 算 技 术 研究 所 开设 了 这 门 
课 。 当 时 教材 还 在 初期 框架 建构 中 。2009 年 ， 我 在 北京 大 学 做 客座 教授 时 完成 了 全 部 大 纲 ， 并 在 应 聘 清 
华 大 学 EMC 讲座 教授 时 邀请 了 美国 的 Geoffrey C. Fox 与 Jack J. Dongarra 教授 加 入 这 本 书 的 撰写 队伍 。 

本 书 中 文 版 与 英文 版 的 版 权 完 全 是 独立 的 ， 换 名 话说， 中 文 版 是 在 英文 版 的 基础 上 修订 、 补 充 完成 的 ， 
文责 全 部 由 本 人 负责 。 我 邀请 了 国内 四 位 一 线 学 者 参与 中 文 版 的 翻译 工作 ， 现 在 简单 介绍 四 位 学 者 如 下 ; 

武 永 卫 教 授 执教 于 清华 大 学 计算 机 系 。 他 是 网 格 计算 与 云 存储 方面 国内 的 重要 学 者 ， 在 国际 同行 
中 也 很 有 影响 。 他 负责 了 本 书 第 1 章 、 第 2 章 和 第 7 章 的 翻译 工作 。 

秦 中 元 博士 是 东南 大 学 信息 科学 与 工程 学 院 副 教授 。 他 从 事 计算 机 系统 与 安全 领域 教学 多 年 ， 曾 
于 2010 年 访问 美国 南 加 州 大 学 。 他 对 本 书 第 9 章 物 联 网 方面 内 容 的 撰写 有 直接 的 贡献 。 他 人 负责 了 本 书 
第 5 章 和 第 6 章 的 翻译 工作 。 

李 振 宇 博士 是 中 国 科学 院 计算 技术 研究 所 的 副 研 究 员 。 他 主要 从 事 互 联网 通信 和 和 对 等 计算 (P2P) 
方面 的 研究 ， 与 中 国 科学 院 计算 技术 研究 所 的 谢 高 岗 研 究 员 合作 发 展 未 来 互联 网 的 系统 与 路 由 技术 。 
他 负责 翻译 本 书 第 8 章 和 第 9 章 。 

钮 艳 博士 于 2012 年 毕业 于 北京 大 学 计算 机 系 ， 她 目前 在 工信部 国家 计算 机 网 络 应 急 技术 中 心 担任 
工程 师 。 她 的 博士 论文 是 关于 计算 机 虚拟 化 与 云 计 算 应 用 。 她 负责 翻译 本 书 第 3 章 和 第 4 章 。 

我 自前 担任 清华 大 学 分 布 式 与 云 计 算 领 域 讲 席 教授 组 的 客座 首席 讲座 教授 。 本 书 中 文 版 完成 时 ， 
我 恰好 正在 清华 大 学 访问 讲学 ， 审 校 了 中 文 版 全 书 。 对 于 四 位 同仁 的 精心 翻译 ， 我 在 此 表示 由 衷 感谢。 
在 翻译 的 过 程 中 ， 清 华 大 学 的 赵 勋 与 郭 维 超 同学 以 及 东南 大 学 的 宋 云 坷 、 郑 勇 冀 与 杨 中 云 辣 学 都 曾 给 
予 协助 ， 在 此 对 他 们 表示 诚挚 的 感谢 ! 

本 书 的 中 文 版 与 影印 版 能 够 在 国内 出 版 ,机械 工业 出 版 社 华章 公司 做 了 大 量 工 作 ， 其 中 温 莉 芳 、 
姚 荔 和 王 春 华 给 予 了 全 力 支 持 ， 在 编辑 、 排 版 和 制作 索引 方面 做 了 很 多 细致 工作 。 本 人 仅 代表 原著 者 
与 四 位 译 者 向 以 上 所 有 工作 人 员 表 示 感 谢 。 

为 了 便于 教师 使 用 本 书 教学 ， 我 已 将 本 书 的 英文 版 PPT 和 部 分 习题 答案 交 给 出 版 社 ， 用 书 教师 可 
以 登录 华章 网 站 (www. hzbook. com) 下 载 。 

最 后 ， 和 希望 读者 通过 阅读 本 书 获 益 。 读 者 如 果 在 阅读 过 程 中 发 现 错误 或 不 足 ， 请 发 送 至 邮箱 hzjsj 
@ hzbook. com, 













































































































































































HH 
2012 #12 A128 
于 清华 大 学 ， 北 京 


Distributed and Cloud Computing, 1E 


理 查 德 ， HB (Richard Feynman) AWERO GMT, RRE) PRET 1944 年 他 如 
何在 洛斯 阿拉 莫 斯 负 责 管理 人 类 计算 机 执行 曼哈顿 计划 要 求 的 长 而 繁琐 的 计算 。 使 用 当时 的 机 械 计 算 
器 ， 最 好 的 人 类 计算 机 每 隔 几 秒 钟 仅 可 以 实现 一 次 加 法 或 乘法 。 因 此 ， 费 曼 和 化 的 团队 研究 了 一 些 方 
法 : 将 问题 分 解 为 较 小 的 任务 ， 这 些小 任务 可 以 由 不 同 的 人 同时 执行 (他 们 传递 卡片 ， 这 些 卡片 带 有 
人 们 操作 加 法 器 、 乘 法 器 、 整 理 器 和 分 类 器 的 中 间 结 果 ) ; 每 次 以 相同 的 计算 复杂 度 运行 乘 落 计 算 
(使 用 不 同 颜色 的 卡片 ) ;有 效 地 检测 和 恢复 错误 ( 相关 的 卡片 及 其 后 代 被 移 除 ， 并 重新 开始 计算 ) 。 

70 年 后 ， 计 算 机 架构 师 面临 类 似 的 挑战 ， 并 且 采 用 了 类 似 的 解决 方案 。 虽 然 单 个 计算 设备 计算 速 
度 很 快 ， 但 是 物理 约束 对 其 速度 仍然 有 限制 。 因 此 ， 如 今 的 计算 趋势 是 普 适 并 行 计 算 。 单 处 理 器 包含 
流水 线 、 并 行 指令 、 预 测 执 行 和 多 线程 。 本 质 上 ， 从 台式 计算 机 到 强大 的 超级 计算 机 ， 每 个 计算 机 系 
统 都 包含 多 处 理 器 。 未 来 亿 亿 级 超级 计算 机 (每 秒 可 以 进行 10 "次 运算 ) 的 设计 师 告 诉 我 们 ， 这些 计 
算 机 将 需要 支持 10" 次 并 发 运算 。 

并 行 性 基本 上 是 关于 通信 和 协作 的 ， 并 且 伴 随 着 技术 的 巨大 变革 ， 这 两 项 活动 过 去 70 年 中 也 在 发 
生变 化 。 光 速 没有 比 费 受 时 间 更 快 ， 光 纤 中 每 纳 秒 8 英寸 或 20 厘米 。 我 们 很 难 想象 在 50 SHAME 
杉 矶 向 奥克兰 发 送 一 条 消息 。 但 是 现今 的 数据 传输 速率 已 经 发 生 了 巨大 变化 ， 已 从 1910 F (PHE 
R) 每 秒 几 个 字符 发 展 到 1960 Æ (ARPANET) 每 秒 数 千 字符 ， 到 2010 年 光纤 每 秒 超过 100 亿 字 符 。 

拟 普 适 高 速 通信 不 仅 人 允许 将 电话 呼 册 中 心 重新 迁移 至 印度 ,而且 人 允许 将 计算 转移 至 集中 式 设备 ， 
以 达到 巨大 的 规模 经 济 效益 ， 并 且 人 允许 收集 和 组 织 大 量 数据 来 支持 世界 范围 的 人 做 决策 。 因 此 ， 政 府 
初 关 、 研 究 实 验 室 和 需要 模拟 复杂 现象 的 企业 创建 和 操作 庞大 的 超级 计算 机 ， 它 们 都 有 成 百 上 于 的 处 
理 器 。 类 似 地 ， 像 谷歌 、Facebook 和 微软 这 类 需要 处 理 大 量 数据 的 公司 操作 众多 大 规模 “ 云 ” 数 据 中 
心 ， 每 个 中 心 可 能 占 地 几 万 平方 英尺 ， 拥 有 几 万 或 几 十 万 台 计 算 机 。 像 费 曼 的 洛斯 阿拉 莫 斯 团队 一 样 ， 
这 些 计 算 综 合体 把 计算 作为 服务 向 多 人 提供 ， 处 理 许多 不 同 目 的 的 计算 。 

大 规模 并 行 、 超 速 通信 和 大 规模 集中 化 是 现今 人 们 做 决策 的 基础 。 对 于 预报 明天 的 天 气 、 索 引 
Web、 推 荐 电影 、 建 议 社会 连接 、 预 测 股票 市 场 的 未 来 状态 或 者 提供 任意 满足 需要 的 信息 产品 ， 这 些 
计算 通常 分 布 在 上 千 的 处 理 器 上 ， 并 且 有 时 依赖 于 从 世界 几 百 万 个 资源 获取 的 数据 。 事 实 上， 现代 世 
界 不 能 没有 并 行 计算 和 分 布 式 计算 。 

在 这 个 普遍 的 并 行 和 分 布 式 世界 中 ， 对 分 布 式 计 算 的 理解 显然 是 计算 机 科学 本 科 生 教育 的 一 个 重 
要 部 分 。( 实际 上 ， 我 觉得 任何 本 科 生 都 应 该 了 解 这些 主 题 。) 今天 ， 大 多 数 的 复杂 计算 机 系统 不 再 是 
单个 微 处 理 器 ， 而 是 完整 的 数据 中 心 。 大 多 数 编写 的 计算 机 程序 都 是 管理 或 运行 于 数据 中 心 规模 级 系 
统 上 的 。 不 理解 这 些 系统 和 程序 如 何 构造 的 计算 机 科学 专业 研究 生 可 能 无 法 高 效 地 从 事 相关 的 工作 。 

黄 铠 、Fox 和 Dongarra 的 这 本 教材 出 版 非常 及 时 。 本 书 分 为 三 部 分 ， 其 内 容 逐 步履 盖 了 支撑 现代 大 
规模 并 行 计算 机 系统 的 硬件 和 软件 体系 结构 ;实现 云 计算 与 分 布 式 计算 的 相关 概念 和 技术 ; 分 布 式 计 
算 的 高 级 主题 ， 包 括 网 格 、P2P 和 物 联网 。 在 每 一 部 分 ， 本 书 都 采用 系统 方法 ， 不 仅 介绍 概念 ， 还 图 




































































VI 


述 代表 技术 和 现实 大 型 分 布 式 计算 部 署 。 计 算 作为 一 门 科 学 ， 是 一 门 工 程 学 科 ， 并 且 这 些 真 实 系统 的 
描述 既 有 助 于 学 生 使 用 它们 ， 也 会 帮助 他 们 理解 其 他 架构 师 如 何 操纵 与 大 型 分 布 式 系统 设计 有 关 的 各 
种 约束 。 

本 书 还 介绍 了 一 些 计 算 机 科研 人 员 目 前 面临 的 一 些 挑 战 。 举 两 个 例子 ,计算 机 已 经 成 为 电能 的 主 
要 消耗 者 ， 在 美国 约 占 所 有 电能 的 3% (在 日 本 ，2011 年 的 海 哺 过 后 ， 为 节约 电力 ， 经 常 不 得 不 关闭 
一 些 大 规模 超级 计算 机 ， 而 这 些 超级 计算 机 可 以 帮助 应 对 未 来 的 自然 灾难 。) 实际 上 ， 每 年 出 售 的 处 
理 器 大 约 有 100 亿 个 ， 其 中 98 锣 是 用 于 嵌入 式 设备 ， 而 这 些 伐 入 式 设备 日 益 需 要 通信 来 驱动 ， 给 物 联 
网 带 来 机 遇 和 挑战 。 物 联网 将 比 现在 的 互联 网 更 广大 、 更 复杂 、 更 有 能 力 。 

我 希望 本 书 的 出 版 可 以 推动 高 校 中 分 布 式 计算 的 教学 一 一 不 仅 作为 一 门 选修 课 〈 现 在 通常 这 样 设 
置 ) ， 而 是 成 为 本 科 课 程 体系 中 的 核心 课 。 我 还 希望 高 校 之 外 的 其 他 人 通过 这 本 书 来 了 解 分 布 式 计算 ， 
更 广泛 地 了 解 自 前 处 于 前 沿 和 尖端 的 计算 技术 : 有 时 混乱 ; 通常 复杂 ; 但 更 重要 的 是 ， 令 人 兴奋 不 已 。 


























Tan Foster 
于 怀俄明 州 杰 克 进 山洞 
2011 年 8 月 
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关于 本 书 


经 过 30 年 的 发 展 ， 并 行 处 理 和 分 布 式 计算 在 计算 机 科学 和 信息 技术 中 方兴未艾 。 许 多 高 校 现 在 已 
经 开设 相关 课程 。 教 师 和 学 生 一 直 在 寻找 一 本 可 以 全 面 涵 盖 计 算 理 论 和 信息 技术 (包括 设计 、 编 程 和 
分 布 式 系统 应 用 ) 的 教材 。 本 书 正 是 为 了 满足 这 一 需求 而 设计 ， 而且 本 书 还 可 以 作为 相关 领域 专业 技 
术 人 员 的 参考 书 。 

本 书 介绍 了 硬件 和 软件 、 系 统 体 系 结构 、 新 的 编程 范式 ， 以 及 强调 速度 性 能 和 节能 的 生态 系统 方 
面 的 最 新 进展 。 这 些 最 新 发 展 说 明了 如 何 创建 高 性 能 集群 、 可 扩展 网 络 、 自 动 数据 中 心 和 高 吞吐 量 云 / 
网 格 系统 。 我 们 还 介绍 了 云 编程 以 及 如 何 将 分 布 式 系统 和 云 系统 应 用 于 创新 的 互联 网 应 用 中 。 本 书 的 
目的 是 将 传统 的 多 处 理 器 和 多 计算 机 集群 转换 为 Web 规模 网 格 、 云 以 及 在 未 来 互联 网 中 泛 在 使 用 的 对 
等 (P2P) 网 络 ， 包 括 近年 来 快速 发 展 的 大 型 社会 网 络 和 物 联 爽 。 


本 书 主要 内 容 


我 们 已 经 在 单独 的 一 卷 中 介绍 了 许多 里 程 碑 式 的 发 展 。 我 们 呈现 的 成 果 不 仅 来 自 于 我 们 自己 的 研 
帘 团队 ， 还 来 自 于 美国 、 中 国 和 澳大利亚 的 主要 研究 组 织 。 总 的 来 说 ， 本 书 总 结 了 近年 来 从 并 行 处 理 
到 分 布 式 计算 和 未 来 互联 网 的 进展 。 

本 书 从 现代 分 布 式 模型 概述 开始 ， 揭 示 并 行 、 分 布 式 与 云 计 算 系 统 的 设计 原理 、 系 统 体 系 结构 和 
创新 应 用 。 本 书 试 图 将 并 行 处 理 技术 与 基于 网 络 的 分 布 式 系统 结合 。 蔬 中 通过 开源 和 商业 厂商 的 具体 
例子 ， 重 点 介绍 了 用 于 研究 、 电 子 商 务 、 社 会 网 络 、 超 级 计算 等 应 用 的 可 扩展 物理 系统 、 虚 拟 化 数据 
中 心 和 云 系统 。 

全 书 共 9 章 内 容 ， 分 为 三 部 分 :第 一 部 分 覆盖 系统 模型 和 关键 技术 ， 包 括 集群 化 和 虚拟 化 。 第 二 
部 分 介绍 数据 中 心 设计 、 云 计算 平台 、 面 向 服务 的 体系 结构 、 分 布 式 编程 范式 和 软件 支持 。 第 三 部 分 
研究 计算 /数据 网 格 、 对 等 网 络 、 普 适 云 、 物 联网 和 社会 网 络 。 

AA 6 章 内 容 涉及 云 计算 方面 的 相关 材料 ， 分 别 是 第 1 章 、 第 3 ~6 章 和 第 9 章 。 书 中 描述 的 云 
系统 包括 公有 云 : 谷歌 应 用 引擎 、 亚 马 逊 Web 服务 、Facebook、SalesForce. com 等 。 这 些 云 系统 在 升级 
Web 服务 和 互联 网 应 用 方面 发 挥 着 越 来 越 重要 的 作用 。 计 算 机 架构 师 、 软 件 工 程 师 和 系统 设计 师 可 能 
想 要 利用 云 技 术 来 建造 未 来 计算 机 和 基于 互联 网 的 系统 。 


本 书 特点 


。 覆盖 现代 分 布 式 计算 技术 ， 包 括 计算 机 集群 、 虚 拟 化 、 面 向 服务 的 体系 结构 、 大 规模 并 行 处 理 
器 、 对 等 系统 、 云 计算 、 社 会 网 络 和 物 联网 。 

。 强调 开发 并 行 、 分 布 式 和 云 计算 系统 的 普 适 性 、 灵 活性 、 有 效 性 、 可 扩展 性 、 可 用 性 和 可 编 
程 性 。 

















。 硬件 、 网 络 和 系统 体系 结构 方面 的 最 新 进展 : 
> 多 核 CPU 和 众 核 GPU (Intel, Nvidia、AMD)。 
> 虚拟 机 和 虚拟 集群 (CoD, Violin, Amazon VPC), 
» Top500 体系 结构 (Tianhe-1A, Jaguar, Roadrunner 等 ) 。 
> 谷歌 应 用 3 引擎、 亚马逊 AWS、 微 软 Azure, IBM ËR, 
» TeraGrid、 DataGrid、ChinaGrid、BOINIC、Grid’ 5000 和 FutureGrid。 
» Chord, Napster、BiTorrent、KaZaA、PPlive、JXTA 和 . NET, 
™ RFID、 传 感 器 网 络 、GPS、CPS 和 物 联 网 。 
» Facebook, Force. Com, Twitter, SGI Cylone, Nebula 和 GoGrid, 
。 范式 、 编 程 、 软 件 和 生态 系统 方面 新 的 改进 : 
> MapReduce、Dryad、Hadoop、MPI、Twister、BigTable、DISC 等 。 
D 云 服务 和 信任 模型 (SaaS、IaaS、PaaS 和 PowerTrust) 。 
» 编程 语言 和 协议 (Python, SOAP, UDDI, Pig Latin) 。 
> 虚拟 化 软件 (Xen、KVM、VMware ESX 等 ) 。 
» 云 操作 系统 和 混搭 系统 (Eucalyptus, Nimbus, OpenNebula, vShere/4 等 ) 。 
» 面向 服务 的 体系 结构 (REST, WS, Web 2.0、0GSA 等 ) 。 
» 分 布 式 操作 系统 (DCE, Amoeba 和 MOSIX ) 。 
» 中 间 件 和 软件 库 (LSF, Globus, Hadoop, Aneka), 
。 BHAA 100 多 个 例题 ， 并 且 每 章 末 都 有 习题 和 进一步 阅读 建议 。 
。 涵盖 多 个 来 自主 流 分 布 式 计算 提供 商 〈 亚 马 示 、 谷 歌 、 微 软 、IBM、 圳 普 、Sun、gSilicon 
Graphics. Rackspace, SalesForce. com, netSuite 和 Enomaly 等 ) 的 案例 研究 。 


读者 对 象 和 阅读 建议 


本 书 适 合作 为 分 布 式 系统 或 分 布 式 计算 课程 的 教材 ， 同 时 也 适合 专业 系统 设计 师 和 工程 师 作为 了 
解 最 新 分 布 式 系统 技术 〈 包括 集群 、 网 格 、 云 和 物 联网 ) 的 参考 书 。 本 书 均衡 覆盖 了 这 些 主 题 ， 并 洞 
Z TORRA IT REMARK, 

这 9 章 内 容 适 合作 为 高 第 级 本 科 生 和 低 年 级 研究 生 一 学 期 课程 (45 小 时 讲义 ) 使 用 。 对 三 学 期 的 
系统 课程 ， 本 书 的 第 1~4 章 、 第 6 章 和 第 9 BISA 10 周 课程 (30 小 时 讲义 ) 。 除 了 解答 习题 之 外 ， 
我 们 还 建议 学 生 在 可 用 集群 、 网 格 、P2P 和 云 平 台 上 做 一 些 并 行 和 分 布 式 编程 的 实验 。 

受 邀 的 贡献 者 

本 书 是 三 位 主要 作者 花费 4 年 的 时 间 (2007—2011) 共同 计划 、 写 作 、 编 辑 和 校对 完成 的 。 在 这 
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前 三 章 介 绍 了 系统 模型 ， 并 回顾 了 两 个 关键 技术 。 第 1 章 讲 述 了 分 布 式 系统 模型 和 云 平台 。 
第 2 章 介 绍 了 集群 化 技术 ,第 3 章 描述 了 虚拟 化 技术 。 这 两 个 技术 可 以 实现 分 布 式 计算 和 云 计 
算 。 系 统 模 型 包括 计算 机 集群 、 计 算 网 格 、P2P 网 络 和 云 计 算 平台 。 系 统 集群 化 需要 硬件 、 软 件 
和 中 间 件 支持 。 虚 拟 化 用 于 创建 虚拟 机 、 虚 拟 集 群 、 数 据 中 心 的 自动 化 ， 并 构建 弹性 云 平台 。 


第 1 章 分 布 式 系统 模型 和 关键 技术 

本 章 介 绍 过 去 30 年 在 并 行 、 分 布 式 、 云 计算 领域 发 生 的 一 些 变革 。 我 们 研究 了 科学 计算 领 
域 的 高 性 能 计算 (HPC) 系统 和 商业 计算 领域 的 高 吞吐 量 计算 (HTC) 系统 。 我 们 检查 了 集群 / 
MPP、 网 格 、P2P 网 络 和 互联 网 云 。 这 些 系 统 在 硬件 体系 结构 、 操 作 系 统 平台 、 处 理 算 法 、 通 信 
协议 、 安 全 需求 、 提 供 的 服务 模型 等 方面 均 有 所 不 同 。 本 章 最 后 重点 介绍 了 分 布 式 系统 中 可 扩展 
和 性、 性 能 、 可 用 性 、 安 全 、 节 能、 负载 外 包 、 数 据 中 心 保护 等 方面 的 基本 问题 。 

本 章 主 要 由 Kai Hwang (442) #5, Geoffrey Fox (1.4.1 节 ) 和 Albert Zomaya (1.5.4 # ) 
撰写 了 部 分 内 容 , Nikzad Rivandi、Young-Choon Lee、Xiaosong Lou (楼 肖 松 ) 和 Lizhong Chen ( 陈 
理 中 ) 做 了 一 些 辅助 工作 。 最 终 稿 由 Jack Dongarra 审 校 。 

第 2 章 可 扩展 并 行 计 算 集 群 

集群 化 使 得 构建 满足 HPC 与 HTC 应 用 的 可 扩展 并 行 和 分 布 式 系统 成 为 可 能 。 现 在 的 集群 节 
点 用 物理 服务 器 或 虚拟 机 构建 。 本 章 主要 研究 集群 计算 系统 和 大 规模 并 行 处 理 器 。 我 们 专注 于 硬 
件 、 软 件 、 中 闻 件 的 设计 原则 和 评估 。 我 们 讨论 可 扩展 性 、 实 用 性 、 可 编程 性 、 单 系统 镜像 、 作 业 
管理 和 容错 能 力 。 我 们 将 研究 近年 来 报告 的 3 个 顶尖 超级 计算 机 系统 (分 别名 为 Tianhe-1A、Gray 
XTS Jaguar 和 IBM Roadrunner) 中 的 集群 化 MPP 体系 结构 。 

本 章 由 Kai Hwang (#4) 和 Jack Dongarra 共同 撰写 ，Rajkumar Buyya 和 Ninghui Sun 做 了 部 
分 贡献 。 

Zhiwei Xu ( 徐 志 伟 )、Zhou Zhao( 赵 洲 )、Xiaosong Lou (4% #42) 和 Lizhong Chen (Æt) 
提供 了 技术 帮助 。 

第 3 章 虚拟 机 和 和 集群 与 数据 中 心虚 拟 化 

虚拟 化 技术 通过 在 同一 组 硬件 主机 上 多 路 复 用 虚拟 机 (Virtual Machine，VM) 的 方式 来 共享 
昂贵 的 硬件 资源 。 近 年 来 ， 虚 拟 机 的 大 量 涌现 扩展 了 系统 应 用 的 范围 ， 并 且 提 升 了 计算 机 性 能 和 
效率 。 我 们 介绍 了 虚拟 机 、 庶 拟 机 在 线 迁 移 、 虚 所 集群 构建 、 资 源 配 置 、 虚 拟 配 置 适 应 ， 以 及 用 
于 云 计算 应 用 的 虚拟 化 数据 中 心 的 设计 。 我 们 强调 使 用 虚拟 集群 的 作用 ， 以 及 构建 动态 网 格 和 
云 平台 的 虚拟 化 资源 管理 。 

本 章 由 Zhibin Yu ( 喻 之 试 ) 和 Kai Hwang (#4) 共同 撰写 ， 人 金海 、 摩 小 飞 、 秦 中 元 、 陈 理 
中 和 赵 洲 提供 了 技术 帮助 。 
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本 章 介 绍 过 去 30 年 在 变化 负载 和 大 数据 集 的 应 用 驱动 下 ， 并 行 、 分 布 式 、 云 计算 领域 发 生 
的 一 些 变 革 。 我 们 研究 了 并 行 计算 领域 要 求 高 性 能 和 高 吞 叶 量 的 一 些 计算 系统 ， 如 计算 机 集群 、 
SOA、 计 算 网 格 、P2P 网 络 、 互 联网 云 和 物 联网 。 这 些 系统 在 硬件 体系 结构 、 系 统 平台 、 处 理 算 
法 、 通 信 协 议 、 提 供 的 服务 模型 等 方面 均 有 所 不 同 。 本 书 也 介绍 了 分 布 式 系统 中 可 扩展 性 、 人 性 
能 、 可 用 性 、 安 全 、 节 能 等 方面 的 基本 问题 。 


1.1 互联 网 之 上 的 可 扩展 计算 


在 过 去 的 60 多 年 间 ， 计 算 技 术 的 平台 和 环境 经 历 了 一 系列 的 变革 。 在 这 一 节 ， 我们 将 介绍 
在 硬件 体系 结构 、 操 作 系 统 平台 、 网 络 连接 、 应 用 负载 方面 的 革命 性 创新 。 一 个 并 行 的 、 分 布 式 
的 计算 系统 使 用 大 量 的 计算 机 解决 互联 网 上 的 大 规模 计算 问题 ， 而 不 是 使 用 一 个 集中 式 的 计算 
机 解决 计算 问题 。 这 也 导致 分 布 式 计 算 的 缺点 是 数据 敏感 和 网 络 中 心 化 。 本 节选 了 到 了 一 些 使 用 
并 行 和 分 布 式 计算 模型 的 现代 计算 机 系统 。 在 今天 的 社会 ， 这 些 大 规模 互联 网 应 用 提高 了 生活 
和 信息 服务 的 质量 。 
1.1.1 互联 网 计算 的 时 代 

每 天 有 数 十 亿 人 使 用 互联 网 。 因 此 ， 超 级 计算 机 和 大 规模 数据 中 心 必须 面向 巨 量 的 互联 网 
用 户 并 发 地 提供 高 性 能 计算 服务 。 由 于 这 样 高 的 需求 ， 用 于 高 性 能 计算 (High- Performance 
Computing, HPC) 系统 性 能 测试 的 Linpack 基准 不 再 适合 和 最 优 。 云 计算 的 出 现 改 为 要 求 采用 并 
行 和 分 布 式 计算 技术 来 构建 的 高 吞吐 量 计 算 系 统 (High-Throughput Computing , HTC ) 15879251 。 
我 们 必须 升级 数据 中 心 ， 采 用 更 快 的 服务 器 、 存 储 系统 和 高 带宽 网 络 。 其 目的 是 利用 不 断 涌现 的 
新 技术 来 改进 基于 网 络 的 计算 和 Web 服务 。 

1.1.1.1 PEHEE 

计算 机 技术 经 历 了 五 代 的 发 展 ， 每 一 代 持 续 10 ~20 年 。 连 续 的 两 代 之 间 会 有 10 年 左右 的 交 
i, PIN, M1950 年 到 1970 年 ， 用 于 满足 大 公司 和 政府 组 织 的 计算 需求 的 是 少数 大 型 机 ， 包 括 
IBM 360 和 CDC 6400。 从 1960 年 到 1980 年 ， 在 小 公司 和 大 学 ， 低 成 本 的 微型 计算 机 (如 DEC 
PDP 11 和 VAX 系列 ) 变 得 流行 起 来 。 

从 1970 年 到 1990 年 ， 使 用 VLSI 微 处 理 器 的 个 人 计算 机 到 处 可 见 。 从 1980 年 到 2000 年 ,在 

有 线 和 无 线 应 用 中 出 现 了 海量 的 便携 式 计算 机 和 通用 型 设备 。 自 1990 年 以 来 ， 隐 藏 在 集群 、 网 

格 或 互联 网 云 背后 的 HPC 和 HTC 系统 应 用 不 断 增 长 扩散 。 这 些 系统 既 被 用 于 高 端 Web 规模 计算 
和 信息 服务 ， 也 提供 给 用 户 。 

普遍 的 计算 趋势 是 平衡 共享 的 网 络 资源 和 互联 网 上 的 海量 数据 。 图 1-1 阐述 了 HPC 和 HTC 
系统 的 演化 。 在 HPC 方面 ， 超 级 计算 机 (大 规模 并 行 处 理 器 (Massively Parallel Processors, 
MPP)) 逐渐 地 被 协同 计算 机 集群 所 替代 ， 不 再 有 共享 计算 资源 的 要 求 限制 。 集 群 通常 是 一 个 物 
理 上 处 在 近 距离 范围 旦 彼此 连接 的 同 构 计算 节点 的 集合 。 我 们 将 在 第 2 章 和 第 7 章 更 详细 地 讨论 
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图 1-1 HPC 和 HTC 系统 的 演化 趋势 (并行 、 分 布 式 、 云 计算 ， 具 有 集群 、MPP、P2P 网 络 、 
网 格 、 云 、Web 服务 和 物 联网 ) 


集群 系统 、MPP 系统 和 网 格 系统 。 
在 HTC 方面 ， 对 等 〈Peer-to-Peer，P2P) 网 络 起 源 于 分 布 式 文件 共享 和 内 容 分 发 应 用 
个 P2P 系 统 建立 在 众多 客户 机 之 上 (第 5 章 将 会 进行 更 详细 的 讨论 ) 。 节 点 机 器 是 完全 分 布 式 


的 。P2P、 云 计算 和 Web 服务 平台 更 关注 HTC 应 用 ， 而 非 HPC 应 用 。 集 群 和 P2P 技术 促进 了 计 


算 网 格 和 数据 网 格 的 发 展 。 

1.1.1.2 高 性 能 计算 

多 年 以 来 ，HPC 系统 强调 系统 的 原生 速度 性 能 。HPC 系统 的 速度 已 经 从 20 世纪 90 年 代 初 每 
秒 十 亿 次 浮 点 运算 (Gflops〉 增 长 到 2010 年 的 每 秒 千 万 亿 次 浮 点 运算 (Pflops)。 这 个 增长 来 自 
于 科学 、 工 程 、 制 造 业 的 需求 驱动 。 例 如 ， 世 界 计算 机 系统 500 强 评测 采用 的 是 Linpack 基准 结 
果 中 的 浮 点 运算 速度 。 然 而 ， 超 级 计算 机 用 户 数量 不 到 全 部 计算 机 用 户 的 10% 。 今 天 ， 大 多 数 
计算 机 用 户 使 用 台式 计算 机 ， 或 者 在 开发 互联 网 搜索 和 市 场 驱 动 计算 任务 时 使 用 大 型 服务 器 。 

1.1.1.3 高 吞吐 量 计算 

面向 市 场 的 高 端 计 算 系 统 的 发 展 正 发 生 策略 上 的 从 HPC 范式 到 HTC 范式 的 转变 。HTC 范式 
更 关注 于 高 通 量 计算 。 高 通 量 计算 主要 应 用 于 被 百 万 以 上 用 户 同时 使 用 的 互联 网 搜索 和 Web 服 
务 。 性 能 目标 因而 转移 到 测量 高 吞吐 量 或 单位 时 间 内 任务 完成 数 。HTC 技术 不 仅 需要 提高 批 处 
理 任务 速度 ， 在 很 多 数据 和 企业 计算 中 心 还 要 考虑 突 发 问题 开销 、 能 量 节约 、 安 全 和 可 靠 性 。 本 
书 将 既 讲 述 HPC 也 讨论 HTC 系统 以 满足 所 有 计算 机 用 户 的 需求 。 

1.1.1.4 三 种 新 的 计算 范式 

如 图 1-1 所 示 ， 随 着 SOA 体系 结构 的 引入 ，Web 2. 0 服务 变 得 可 行 。 先 进 的 虚拟 化 技术 使 互 
联网 云 作 为 一 种 新 的 计算 范式 得 以 不 断 成 长 。 射 频 识别 ( Radio- Frequency IDentification, RFID) , 
全 球 定位 系统 (GPS) 和 传 感 技术 的 成 熟 触 发 了 物 联网 (Internet of Things, IoT) 的 发 展 。 这 些 
新 的 范式 在 这 里 只 进行 简要 介绍 。 我 们 将 在 第 5 章 详细 研究 SOA; 第 3 章 主要 讨论 虚拟 化 ; 云 计 
算 系统 在 第 4 章 、 第 6 章 和 第 9 章 加 以 论述 ; 第 9 章 还 将 介绍 包含 信息 物理 融合 系统 ( Cyber- 
Physical Systems, CPS) 的 物 联网 。 
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从 1969 年 引入 互联 网 开始 ， 加 州 大 学 洛杉矶 分 校 的 Leonard Klienrock 断言 : “到 目前 为 止 ， 
计算 机 网 络 的 发 展 仍 处 于 幼年 时 期 ， 但 随 着 网 络 的 成 长 和 成 熟 ， 我 们 将 可 以 看 到 计算 机 效用 的 
扩展 ， 就 像 电 和 电话 的 广泛 应 用 ， 将 会 惠及 全 世界 的 家 庭 和 办 公 室 。” 从 那 时 起 ， 许 多 人 已 经 重 
新 定义 “计算 机 ”这 个 词 。1984 年 ，Sun Microsystems 公司 的 John Gage 更 是 提出 了 “网 络 就 是 
计算 机 ”的 口号 。2008 年 ， 加 州 大 学 伯克利 分 校 的 David Patterson Hi: “数据 中 心 就 是 计算 机 。 
这 种 以 服务 的 方式 将 软件 提供 给 数 百 万 用 户 与 之 前 的 分 发 软件 让 用 户 在 自己 的 PC 上 运行 有 着 明 
显 的 不 同 。” 最近 ， 墨 尔 本 大 学 的 Rajkumar Buyya Af] BIB: “BREATHS.” 
本 书 讨论 的 问题 包括 集群 、MPP、P2P 网 络 、 网 格 、 云 、Web 服务 、 社 会 网 络 和 物 联网 。 事 
实 上 ， 集 群 、 网 格 、P2P 网 络 和 云 之 间 的 区 别 将 会 越 来 越 模糊 。 一 些 人 视 云 计算 为 通过 虚拟 化 技 
术 适 度 变化 的 网 格 计算 或 集群 。 其 他 人 认为 这 种 改变 是 颠覆 性 的 ， 因 为 云 计算 被 预期 用 于 处 理 
传统 互联 网 、 社 会 网 络 和 未 来 的 物 联 网 产生 的 海量 数据 集 。 在 后 续 的 章节 ， 所 有 分 布 式 和 云 计算 
系统 模型 之 间 的 区 别 和 依存 关系 将 会 更 加 清晰 和 透明 。 
1.1.1.5 计算 范式 间 的 区 别 
关于 集中 式 计算 、 并 行 计算 、 分 布 式 计 算 、 云 计算 的 精确 定义 ,一 些 高 科技 组 织 已 经 争论 了 
L6 ] 多 年 。 通 常 来 讲 ， 分 布 式 计算 和 集中 式 计 算 相 反 。 并 行 计算 领域 与 分 布 式 计算 在 很 大 程度 上 有 交 
渤 ， 云 计算 与 分 布 式 计算 、 集 中 式 计算 、 并 行 计算 都 有 一 部 分 的 交集 。 下 面 的 列表 更 清晰 地 定义 
了 这 些 术 语 ， 后 续 章 节 将 对 其 体系 结构 和 运行 进行 更 深入 的 讨论 。 
。 集中 式 计算 : 这 种 计算 范式 是 将 所 有 计算 资源 集中 在 一 个 物理 系统 之 内 。 所 有 资源 (处 
理 器 、 内 存 、 存 储 器 ) 是 全 部 共享 的 ， 并 且 紧 耦合 在 一 个 集成 式 的 操作 系统 中 。 许 多 数 
据 中 心 和 超级 计算 机 都 是 集中 式 系统 ， 但 它们 都 被 用 于 并 行 计算 、 分 布 式 计算 和 云 计算 
应 用 中 [8.261 o 
并 行 计算 : EHHA F, HADMRRERRAT TP OLENFREMBATOAR 
内 存 。 一 些 学 者 称 之 为 并 行 处 理 !"“21。 处 理 器 间 通 信 通 过 共享 内 存 或 通过 消息 传递 完 
成 。 通 常 称 有 并 行 计算 能 力 的 计算 系统 为 并 行 计算 机 '31。 运 行 在 并 行 计算 机 上 的 程序 称 
为 并 行程 序 。 编 写 并 行程 序 的 过 程 称 为 并 行 编程 [%%] 。 
分 布 式 计 算 : 这 是 一 个 计算 机 科学 和 工程 中 研究 分 布 式 系统 的 领域 。 一 个 分 布 式 系 
统 ” “7 由 众多 自治 的 计算 机 组 成 ， 各 自 拥 有 其 私有 内 存 ， 通 过 计算 机 网 络 通信 。 分 布 
式 系统 中 的 信息 交换 通过 消息 传递 的 方式 完成 。 运 行 在 分 布 式 系统 上 的 程序 称 为 分 布 式 
程序 。 编 写 分 布 式 程序 的 过 程 称 为 分 布 式 编程 。 
。 aie: 一 个 互联 网 云 的 资源 可 以 是 集中 式 的 也 可 以 是 分 布 式 的 。 云 采用 分 布 式 计算 或 
并 行 计算 ， 或 两 者 兼 有 。 云 可 以 在 集中 的 或 分 布 式 的 大 规模 数据 中 心 之 上 ， 由 物理 的 或 
虚拟 的 计算 资源 构建 。 一 些 学 者 认为 云 计 算是 一 种 效用 计算 或 者 服务 计算 形式 0 。 
和 前 面 的 术语 相 比 ， 一 些 高 科技 组 织 更 喜欢 并 发 计算 或 者 并 发 编程 这 个 术语 。 虽 然 这 些 术 
语 通常 代表 并 行 计算 和 分 布 式 计算 ， 但 有 倾向 的 从 业者 也 会 给 出 不 同 的 解释 。 普 适 计算 是 指 在 
任何 地 点 和 时 间 通 过 有 线 或 者 无 线 网 络 使 用 普遍 的 设备 进行 计算 。 物 联网 是 一 个 日 常生 活 对 象 
(包括 计算 机 、 传 感 器 、 人 等 ) 网 络 化 的 连接 。 物 联网 通过 互联 网 云 实现 任何 对 象 在 任何 地 点 和 
时 间 的 普 适 计算 。 最 后 ， 互 联网 计算 这 一 术语 几乎 涵盖 了 所 有 和 互联 网 相关 的 计算 范式 。 本 书 将 
覆盖 前 面 提 及 的 所 有 计算 范式 ， 重 点 介绍 分 布 式 计算 和 云 计 算 及 其 运行 的 系统 ， 包 括 集群 、 网 
格 、P2P 和 云 系 统 。 
1.1.1.6 分 布 式 系 统 家 族 
自 20 世纪 90 年 代 中 期 以 来 ， 建 立 P2P 网 络 和 集群 网 络 的 技术 在 许多 设计 构建 广 域 计 算 基 础 
设施 的 国家 项 目 中 得 以 巩固 ， 被 称 为 计算 网 格 或 数据 网 格 。 最 近 ， 我 们 已 经 见证 到 一 个 探索 互联 


第 1 章 分 布 式 系统 模型 和 关键 技术 5 


网 云 中 数据 敏感 应 用 的 热潮 。 互 联网 云 是 迁移 桌面 计算 到 使 用 服务 集群 和 数据 中 心 大 规模 数据 
库 的 面向 服务 计算 的 结果 。 本 章 将 介绍 各 种 并 行 计算 和 分 布 式 计 算 的 基础 知识 。 网 格 和 云 则 是 L7 ] 
更 加 关注 于 硬件 、 软 件 和 数据 集 方 面 资源 共享 的 不 同系 统 。 
本 书 也 涉及 这 些 大 规模 分 布 式 系统 的 设计 理论 、 关 键 技术 和 案例 研究 。 大 规模 分 布 式 系统 
意 在 多 机 上 达到 高 度 并 行 和 并 发 。 在 2010 年 10 月 ， 拥 有 最 高 性 能 的 集群 是 中 国 制造 的 由 86 016 
个 CPU 处 理 器 核心 和 3 211 264 个 GPU 核心 组 成 的 天 河 一 号 系统 (Tianhe-1A) 。 最 大 的 计算 网 格 
连接 了 数 百 个 服务 器 集群 。 一 个 典型 的 P2P 网 络 可 能 包含 数 百 万 同时 运行 的 客户 机 。 实 验 云 计 
算 集 群 也 由 数 千 个 处 理 节 点 组 成 。 我 们 在 第 4 ~6 章 将 专门 讨论 云 计 算 。HTC 系统 的 案例 分 析 将 
放 在 第 4 章 和 第 9 章 ， 包 括 数据 中 心 、 社 会 网 络 和 虚拟 云 平 台 。 
未 来 ，HPC 和 HTC 系统 都 将 需要 每 个 核 可 以 处 理 大 量 计 算 线 程 的 多 核 或 众 核 处 理 器 。HPC 
和 HTC 系统 都 强调 并 行 和 并 发 计算 。 未 来 的 HPC 和 HTC 系统 必须 满足 计算 资源 在 吞吐 量 、 效 
率 、 可 扩展 性 、 可 人 靠 性 方面 的 巨大 需求 。 系 统 效率 决定 于 速度 、 可 编程 性 和 能 量 因素 〈 如 每 瓦 
能 量 消 耗 的 吞吐 量 ) 。 达 到 这 些 目标 需要 遵从 如 下 设计 原则 : 
e 效率 : 在 HPC 系统 中 开发 大 规模 并 行 计算 时 ， 度 量 执行 模型 内 资源 的 利用 率 。 对 于 HTC 
系统 ， 效 率 更 依赖 于 系统 的 任务 吞吐 量 、 数 据 访问 、 存 储 、 节 能 。 
。 可 信 : 度量 从 芯片 到 系统 到 应 用 级 别 的 可 靠 性 和 自 管理 能 力 。 目 的 是 提供 有 服务 质量 
(QoS) 保证 的 高 吞吐 量 服务 ， 即 使 是 失效 的 情况 下 。 
。 编程 模型 适应 性 : 度量 在 海量 数据 集 和 虚拟 云 资 源 上 各 种 负载 和 服务 模型 下 支持 数 十 亿 
任务 请 求 的 能 力 。 
。 应 用 部 署 的 灵活 性 : 度量 分 布 式 系统 能 够 同时 很 好 地 运行 在 HPC (科学 和 工程 ) 和 HTC 
(商业 ) 应 用 上 的 能 力 。 
1.1.2 可 扩展 性 计算 趋势 和 新 的 范式 
技术 上 一 些 可 预测 的 趋势 是 驱动 计算 应 用 的 。 事 实 上 ， 设 计 者 和 开发 者 想 预 测 新 系统 的 技 
术 承 载 力 。 例 如 ，Jim Gray 的 论文 “数据 工程 中 的 经 验方 法 ”， 是 一 个 技术 如 何 影响 应 用 的 经 典 
例子 ， 反 之 亦 然 。 另 外 ， 摩 尔 定律 预测 处 理 器 速度 每 18 个 月 翻 一 番 。 虽 然 在 过 去 的 30 年 摩尔 定 
律 已 经 得 到 验证 ， 但 很 难说 在 未 来 一 段 时 间 是 否 仍然 有 效 。 
Gilder 定律 预测 网 络 带宽 在 过 去 的 每 年 翻 一 番 。 这 种 趋势 是 否 能 继续 ?9 常用 硬件 极 大 的 价 
格 /性 能 比率 由 台式 计算 机 、 笔 记 本 电脑 、 平 板 电脑 等 计算 设备 市 场所 驱动 。 这 也 决定 了 大 规模 
计算 产品 技术 的 采纳 和 使 用 。 我 们 将 在 下 面 的 章节 中 更 详细 地 讨论 这 些 计 算 趋 势 。 目 前 ， 重 点 是 
理解 分 布 式 系统 如 何 同时 强调 资源 分 布 和 并 发 或 高 并 行 度 (Degree of Parallelism，DoP) 。 在 我 们 
讨论 分 布 式 计 算 的 特殊 需求 之 前 ， 回 顾 一 下 并 行 度 的 概念 。 
1. 1.2.1 并 行 度 
50 年 前 ， 当 硬件 庞大 而 昂贵 时 ， 大 多 数 计算 机 都 采用 位 串 行 方式 。 在 这 样 的 场景 中 ， 位 级 
HAF (Bit-Level Parallelism, BLP) 将 位 串 行 处 理 过 程 逐渐 转变 成 字 级 处 理 。 这 些 年 来 ,用 户 经 
历 了 4 位 微 处 理 器 到 8 位 、16 位 、32 位 、64 位 CPU 的 逐 度 变 化 。 这 引领 我 们 进行 下 一 波 的 改 
进 ， 即 指令 级 并 行 (Instruction-Level Parallelism，ILP) ， 处 理 器 同时 执行 多 条 指令 而 不 是 一 个 时 
刻 执行 一 条 指令 。 在 过 去 的 30 年 间 ， 我 们 已 经 通过 指令 流水 线 、 超 标量 计算 、VLIW (Very Long 
Instruction Word， 超 长 指令 字 ) 体系 结构 、 多 线程 实践 了 ILP, ILP 需要 分 支 预测 、 动 态 规划 、 投 
机 预测 、 提 高 运行 效率 的 编译 支持 。 
数据 级 并 行 《Data- Level Parallelism, DLP) 的 流行 源 于 SIMD (Single Instruction, Multiple 
Data， 单 指令 多 数据 ) 和 使 用 向 量 与 数组 指令 类 型 的 向 量 机 。DLP 需要 更 多 的 硬件 支持 和 编译 器 
辅助 来 实现 。 自 从 多 核 处 理 器 和 片上 多 处 理 器 (Chip MultiProcessor, CMP) 引入 后 ， 我 们 进行 了 
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任务 级 并 行 (Task-Level Parallelism, TLP) 的 一 些 探索 。 一 个 现代 处 理 器 已 经 满足 所 有 前 述 并 行 
类 型 。 事实 上 ，BLP、ILP 和 DLP 已 经 在 硬件 和 编译 器 层面 得 到 很 好 的 支持 。 然 而 由 于 多 核 片 上 
多 处 理 器 高 效 执行 在 编程 和 代码 复杂 化 上 的 困难 ，TLP 还 不 是 非常 成 功 。 随 着 并 行 处 理 向 分 布 式 
处 理 的 转移 ， 我 们 将 看 到 计算 粒度 向 作业 级 并 行 (Job- Level Parallelism , JLP) 的 逐渐 增长 。 可 
以 说 ， 粗 粒度 并 行 是 建立 在 细 粒 度 并 行 之 上 的 。 

1.1.2.2 创新 型 应 用 

在 很 多 应 用 层面 ，HTC 和 HPC 系统 都 需要 透明 性 。 例 如 ， 数 据 访 问 、 资 源 分 配 、 过 程 定位 、 
并 发 执行 、 作 业 复 制 ， 以 及 错误 恢复 对 于 用 户 和 系统 管理 都 应 该 是 透明 的 。 表 1-1 突出 显示 了 这 
些 年 来 驱动 并 行 和 分 布 式 系统 发 展 的 几 个 关键 应 用 。 这 些 应 用 广泛 应 用 于 许多 重要 领域 ， 包 括 
科学 、 工 程 、 商 业 、 教 育 、 卫 生 保健 、 交 通 控制 、 互 联网 和 Web 服务 、 军 事 ， 以 及 政府 应 用 。 


表 1-1 高 性 能 和 高 吞吐 量 系统 应 用 
领 域 具体 应 用 
科学 仿真 、 基 因 分 析 等  . 
地 震 预 测 、 全 球 变 暖 、 天 气 预报 等 
远程 通信 、 内 容 分 发 、 电 子 商 务 等 
银行 、 股 票 交 易 、 事 务 处 理 等 
空中 交通 控制 、 电 力 网 格 、 远 程 教育 等 











科学 和 工程 











商业 、 教 育 、 服 务 业 和 卫生 保健 



































= 卫生 保健 、 医 院 自动 化 、 远 程 医疗 竺 
互联 网 搜索 、 数 据 中 心 、 决 策 系统 等 
互联 网 和 Web 服务 、 政 府 应 用 流量 监测 、 病 毒 预 防 、 网 络 安全 等 
数字 化 政务 、 网 上 纳税 申报 处 理 、 社 会 网 络 等 
关键 任务 应 用 军事 指挥 和 控制 、 智 能 系统 、 危 机 管理 竺 


几乎 所 有 的 应 用 都 要 求 计算 经 济 性 、 网 络 规模 数据 收集 、 系 统 可 靠 性 和 可 扩展 性 能 。 例 如 ， 
分 布 式 事务 处 理 经 常 出 现在 银行 和 财政 系统 中 。 事 务 描绘 了 可 靠 银行 系统 中 90% 的 业务 。 分 布 
式 事务 中 ， 用 户 必须 处 理 多 数据 库 服 务 器 。 在 实时 银行 业务 中 ,维护 事 务 记录 副本 的 一 致 性 是 至 
关 紧 要 的 。 其 他 的 复杂 因素 包括 缺少 软件 支持 、 网 络 饱和 、 应 用 中 的 安全 威胁 。 我 们 将 在 后 续 章 
节 更 详细 地 讨论 应 用 和 软件 支持 。 

1.1.2.3 效用 计算 趋势 

图 1-2 标识 了 推动 分 布 式 系统 及 其 应 用 研究 的 主要 计算 范式 。 这 些 范 式 有 一 些 共同 的 特 
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图 1-2 现代 分 布 式 计算 系统 中 的 计算 机 效用 愿景 
7: 修改 自 Ra Buyya (2010) 的 幻灯 片 。 
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性 。 首 先 ， 在 日 常生 活 中 它们 是 普 适 的 。 在 这 些 模型 中 ， 可 靠 性 和 可 扩展 性 是 两 个 主要 设计 
目标 。 其 次 ， 它 们 都 是 针对 自 组 织 支 持 动态 发 现 的 自动 化 业务 。 最 后 ， 这 些 范式 是 QoS 和 
SLA (Service-Level Agreement， 服 务 级 协议 ) 可 调节 的 。 这 些 范式 及 其 特性 实现 了 计算 机 效用 的 
愿景 。 

效用 计算 集中 于 用 户 从 付费 服务 提供 商 处 获得 计算 资源 的 商业 模型 。 所 有 的 网 格 和 云 都 被 
视 为 效用 服务 提供 商 。 然 而 ， 云 计算 是 一 个 比 效 用 计算 更 宽泛 的 概念 。 分 布 式 云 应 用 运行 在 边际 
网 络 中 任何 可 用 的 服务 器 上 。 这 在 计算 机 科学 和 工程 的 各 个 方面 都 面临 着 许多 技术 挑战 。 例 如 ， 
用 户 要 求 新 的 高 效 网 络 处 理 器 、 可 扩展 的 内 存 和 存储 方案 、 分 布 式 操 作 系 统 、 机 器 虚拟 化 中 间 
件 、 新 的 编程 模型 、 有 效 的 资源 管理 和 应 用 程序 开发 。 要 构建 在 所 有 处 理 级 别 探索 大 规模 并 行 的 「 9 
分 布 式 系统 ， 必 需 有 这 些 硬 件 和 软件 的 支持 。 

11.2.4 新 技术 成 熟 周 期 

任何 新 出 现 的 计算 和 信息 技术 都 会 经 历 一 个 成 熟 周 期 ， 如 图 1-3 所 示 。 这 个 周期 展示 了 在 5 
个 不 同 阶段 对 技术 的 预期 。 这 种 预期 在 触发 阶段 到 膨胀 预期 的 一 个 高 峰 阶段 迅速 升 高 。 经 过 一 
个 短期 的 幻灭 阶段 ， 预 期 会 跌 入 谷底 ， 然 后 经 历 一 个 较 长 的 复苏 阶段 的 平稳 增长 达到 生产 力 水 
平成 熟 期 。 一 个 新 兴 技 术 达 到 一 个 必然 的 阶段 所 需 年 数 已 经 用 特殊 标志 进行 了 标记 。 空 心 圆圈 
表示 两 年 时 间 内 被 主流 采纳 的 技术 。 灰 色 圆 圈 代 表 2 ~5 年 被 主流 采纳 的 技术 。 实 心 圆圈 表示 将 
需 5 ~ 10 年 时 间 被 主流 采纳 的 技术 ， 三 角形 表示 需要 10 年 以 上 时 间 的 技术 。 十 字 圆 圈 代 表 在 达 
到 成 熟 期 前 就 被 淘汰 的 技术 。 

图 1-3 中 的 成 熟 周期 展示 了 2010 年 8 月 的 技术 状态 。 例 如 ， 在 那 时 用 户 生 成 媒体 内 容 处 在 
幻灭 阶段 ， 并 被 预测 在 两 年 内 将 达到 采纳 成 熟 期。 互联 网 微 支 付 系 统 被 预测 将 在 2 ~5 年 时 间 内 
从 复苏 阶段 达到 成 熟 期 。3D 打印 将 需要 5 ~ 10 年 时 间 从 预期 上 升 阶段 达到 主流 采纳 阶段 ， 网 状 
网 络 : 传感器 被 预计 需要 10 年 以 上 时 间 才 能 从 膨胀 预期 阶段 达到 主流 采纳 成 熟 阶段 。 

如 图 1-3 所 示 ， 云 技术 刚 经 过 了 2010 年 预期 阶段 的 峰值 ， 将 在 2 ~ 5 年 时 间 达 到 生产 力 稳定 
阶段 。 预 计 电 力 线 宽 带 技 术 将 在 2010 年 离开 幻灭 阶段 谷底 之 前 被 淘汰 。 许 多 其 他 技术 (图 1-3 
中 用 灰色 圆圈 标识 ) 在 2010 年 8 月 处 于 预期 峰值 阶段 ， 将 可 能 在 未 来 的 5 ~ 10 年 达到 成 熟 稳定 
期 。 一旦 一 个 技术 开始 进入 复苏 期 的 范围 ， 在 2 ~5 年 将 达到 生产 力 成 熟 阶段 。 有 和 希望 的 这 类 技 
术 是 ， 云 计算 、 生 物 认证 、 交 互 电视 、 语 音 识别 、 预 测 分 析 ， 以 及 媒体 平板 电脑 。 

1.1.3 物 联 网 和 CPS 

本 节 将 讨论 互联 网 发 展 的 两 种 趋势 : 物 联 网 和 CPS。 这 两 个 革命 性 的 趋势 都 强调 互联 网 
向 日 常生 活 对 象 的 延伸 和 扩展 。 这 里 我 们 只 介绍 一 些 基 本 概念 ， 第 9 章 将 给 出 更 详细 的 讨论 。 

1.1.3.1 HEA 

传统 的 互联 网 是 机 器 和 机 器 或 者 网 页 和 网 页 之 间 的 连接 。 物 联网 的 概念 1999 年 在 MIT 被 
提出 。 物 联网 是 指 日 常 生活 中 对 象 、 工 具 、 设 备 或 计算 机 间 存 在 网 络 互 连 。 我 们 可 以 视 物 
联网 为 互联 了 所 有 我 们 生活 中 的 对 象 的 无 线 传感器 网 络 。 这 些 对 象 可 大 可 小 ， 随 时 间 和 地 点 
的 变化 而 变化 。 这 个 思路 就 是 使 用 RFID、 相 关 传 感 器 或 电子 技术 (如 GPS) 来 标识 每 个 
物体 。 
| 随 着 IPv6 协议 的 引入 ,2 个 中 地 址 足以 区 分 地 球 上 的 每 个 对 象 ， 包 括 所 有 计算 机 和 专 有 设 
备 。 物 联网 研究 者 已 经 估计 出 每 个 人 身边 将 会 有 1 000 ~5 000 个 对 象 。 物 联网 应 该 设计 成 可 同时 
追踪 百 万 亿 条 静态 对 象 或 移动 对 象 。 物 联网 需要 对 所 有 对 象 进行 统一 编 址 。 为 了 减少 标识 、 搜 索 
和 存储 的 复杂 性 ， 可 以 通过 设置 益 值 过 滤 掉 细小 的 对 象 。 物 联网 显然 扩展 了 互联 网 ， 在 亚洲 和 欧 
洲 得 到 了 更 多 的 发 展 。 
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图 1-3 2010 年 新 技术 成 熟 周期 


在 物 联 网 时 代 ， 所 有 对 象 和 设备 都 是 工具 化 的 、 互 连 的 和 智能 交互 的 。 这 种 交流 可 以 发 生 在 
人 和 物 或 者 物 和 物 之 间 。 三 种 交流 模式 同时 存在 : H2H (人 和 人 )、H2T (AMH), TT ( 物 和 
物 )。 这 里 ， 物 包括 机 器 ， 如 PC 和 手机 。 这 里 的 思想 是 在 任何 时 间 、 任 何 地 点 以 较 低 的 成 本 智 
能 地 连接 事物 〈 包 括 人 和 机 器 对 象 ) 。 任 何 地 点 连接 包括 在 PE 上 、 户 内 (不 在 PC 上 )、 户 外 ， 
以 及 移动 中 。 任 何 时 间 连 接 包 括 白天 、 上 晚上 、 户 外 和 和 户 内 ， 也 包括 移动 中 。 

动态 连接 将 会 指数 型 增长 成 为 包含 多 个 网 络 的 一 个 新 的 动态 网 络 ， 称 为 物 联网 。 物 联网 仍 
处 在 其 发 展 的 初级 阶段 。 在 编写 本 书 过 程 中 ， 许 多 指定 区 域 覆 盖 的 物 联 网 仍 处 于 试验 状态 。 云 计 
算 研 究 者 希望 用 云 和 下 一 代 互 联网 技术 支持 地 球 上 人 、 机 器 、 任 何 对 象 间 的 快速 、 有 效 、 智 能 交 
。 智慧 的 地 球 应 该 有 智能 的 城市 、 清 洁 的 水 资源 、 高 效 的 能 源 、 便 利 的 交通 、 完 善 的 食物 供 
、 负 责任 的 银行 、 快 速 的 远程 通信 、 绿 色 的 信息 技术 、 更 好 的 学 校 、 良 好 的 医疗 、 丰 富 的 资源 
。 要 在 世界 的 不 同 地 区 实现 这 个 理想 的 生活 环境 ， 还 需要 花费 一 定 的 时 间 。 
1.1.3.2- CPS 
CPS 是 计算 过 程 和 物理 世界 之 间 交 互 的 结果 。CPS 集成 了 “计算 节点 ”( 同 构 ， 异 构 ) 和 
“物理 ”( 并 发 和 信息 密集 的 ) 对 象 。CPS 在 物理 世界 和 信息 世界 之 间 将 “3C” 技 术 (计算 、 通 
信 、 控 制 ) 融合 到 了 一 个 智能 闭环 反馈 系统 中 ,已 经 在 美国 被 积极 地 研究 和 探索 。 物 联网 强调 
物理 对 象 之 间 的 多 样 化 连接 ， 而 CPS 强调 物理 世界 中 虚拟 现实 ( Virtual Reality, VR) 应 用 的 开 
发 和 研究 。 这 将 改变 我 们 同 物理 世界 交互 的 方式 ， 就 像 互联 网 改变 了 我 们 同 虚拟 世界 交互 的 方 
式 。 我 们 将 在 第 9 章 研 究 物 联网 、CPS 及 其 同 云 计算 之 间 的 关系 。 


1.2 基于 网 络 的 系统 技术 


随 着 可 扩展 性 计算 的 概念 日 趋 成 熟 ， 是 时 候 为 分 布 式 计算 系统 设计 及 其 应 用 开发 硬件 、 
12 | 软件 和 网 络 技术 了 。 尤 其 应 关注 在 分 布 式 环境 中 构建 处 理 大 规模 并 行 分 布 式 操作 系统 的 可 行 
13 | 尝试 。 
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1.2.1 多 核 CPU 和 多 线程 技术 

过 去 30 年 组 件 和 网 络 技术 取得 了 长 足 的 进步 ,这些 对 HPC 和 HTC 系统 的 发 展 是 至 关 重 要 
的 。 在 图 1-4 中 ， 处 理 器 速度 的 测量 单位 是 每 秒 执行 百 万 条 指令 数 ( MIPS)， 网 络 带 宽 的 测量 单 
位 是 光 位 每 秒 (Mbps) 或 千 光 位 每 秒 〈(Gbps)。 单 位 GE 指 的 是 1Cbps 以 太 网 带宽 。 

1.2.1.1 先进 的 CPU 处 理 器 

SR, 先进 的 CPU 或 微 处 理 器 芯片 采取 双核 、 四 核 、 六 核 或 更 多 处 理 核 心 的 多 核 体 系 结构 。 
这 些 处 理 器 在 IP 和 TLP 级 别 开 拓 并 行 。 处 理 器 速度 的 增长 如 图 1-4 靠 上 的 曲线 所 绘 ， 综 合 了 各 
代 微 处 理 器 和 片上 多 处 理 器 。 我 们 看 到 增长 从 1978 年 VAX 780 的 1MIPS 到 2002 年 Intel Pentium 4 
的 1 800MIPS， 上 至 2008 年 Sun Niagara 的 22 000MIPS 的 峰值 。 如 图 1-4 所 示 ， 在 这 个 例子 中 ， 
摩尔 定律 已 经 被 非常 精确 的 验证 。30 年 中 ， 处 理 器 时 钟 速率 从 Intel 286 的 1OMHz 提升 到 Pentium 4 
的 4 GHz。 

然而 由 于 基于 CMOS 的 芯片 能 量 上 的 限制 ， 时 钟 速率 已 经 达到 了 极限 。 在 编写 本 书 的 时 刻 ， 
极 少数 的 CPU 芯片 达到 了 5GHz 以 上 的 时 钟 速 率 。 换 句 话说， 除非 芯片 技术 有 所 罕 破 ， 否 则 时 钟 
速率 不 会 再 有 提高 。 这 个 限制 主要 归 因 于 高 频 或 高 电压 下 额外 热量 的 生成 。ILP 在 现代 处 理 器 中 
已 经 得 到 充分 开拓 。ILP 机 制 包括 多 路 超标 量 体 系 结构 、 动 态 分 支 预测 、 猜 测 执行 等 方法 。 这 些 
ILP 技术 要 求 硬 件 和 编译 器 支持 。 另 外 ，DLP 和 TLP 在 图 形 处 理 单元 (Graphies Processing Unit, 
GPU) 上 被 充分 探索 ， 其 中 GPU 采用 成 百 上 千 的 简单 核心 的 众 核 体 系 结构 。 
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图 1-4 处 理 器 和 网 络 技术 近 33 年 的 发 展 
注 : 由 南 加 州 大 学 的 楼 肖 松 和 陈 理 中 (2011) 提供 。 
目前 ， 多 核 CPU MAK GPU 都 可 以 在 不 同 量 级 上 处 理 多 指令 线程 。 图 1-5 展示 了 一 个 标准 
的 多 核 处 理 器 体系 结构 。 每 个 核心 本 质 上 是 一 个 拥有 私有 cache (L1 cache) 的 处 理 器 。 多 核 与 
被 所 有 核心 共享 的 L2 cache 布置 在 同一 块 芯片 上 。 将 来 ， 多 CMP 甚至 是 L3 cache 可 以 被 放 在 同 
一 块 CPU 芯片 上 。 许 多 高 端 处 理 器 都 配备 多 核 和 多 线程 CPU， 包括 Intel i7, Xeon, AMD 
Opteron, Sun Niagara, IBM Power 6 和 XX cell 处 理 器 。 每 个 核心 也 可 以 多 线程 。 例 如 ，Niagara II 
是 8 核 的 且 每 个 核心 可 处 理 8 个 线程 。 这 意味 着 在 Niagara 上 最 大 化 的 IP 和 TLP 数 可 以 达到 64 
(8 x8 =64) 。 如 图 1-4 最 上 方 的 方块 所 示 ， 据 报道 2011 年 Intel Core i7 990x 的 执行 速度 已 经 达到 
159 000 MIPS, 
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图 1-5 现代 多 核 CPU 芯片 的 层次 cache 示意 图 ， 其 中 LI cache 是 每 个 核 私 有 的 ， 片 上 L2 
cache 是 共享 的 ，L3 cache 和 DRAM 是 非 片上 的 


1.2.1.2 多 核 CPU 和 众 核 GPU 体系 结构 

多 核 CPU 将 从 数 十 个 核心 增长 到 数 百 个 甚至 更 多 。 但 由 于 前 述 的 内 存 墙 问题 ，CPU 已 经 达 
到 大 规模 DLP 开拓 的 极限 。 这 也 触发 了 有 数 百 或 更 多 轻 量 级 核心 的 众 核 CPU 的 开发 。IA-32 和 
IA-64 指令 集体 系 结构 都 被 应 用 于 商业 CPU。 现 在 ，x86 处 理 器 已 经 被 扩展 用 于 HPC 和 HTC 系统 
的 一 些 高 端 服 务 器 处 理 器 。 

在 Top500 系统 中 ,许多 RISC 处 理 器 已 经 被 替换 为 多 核 x86 处 理 器 和 众 核 CPU。 这 个 趋势 表 
明 在 数据 中 心 和 超级 计算 机 上 x86 升级 将 占 支 配 地 位 。GPU 也 被 用 于 大 规模 集群 来 建造 MPP 超 
级 计算 机 。 在 将 来 ,处 理 器 制造 业 也 渴望 开发 异 构 或 同 构 的 可 同时 承载 重量 级 CPU 核心 和 轻 量 
级 GPU 核心 的 片上 多 处 理 器 芯片 。 

1.2.1.3 多 线程 技术 

考虑 图 1-6， 分 发 5 个 独立 指令 线程 到 下 面 5 类 处 理 器 的 4 条 数据 流水 路 径 (功能 单元 )， 从 
ESA: 4 路 超标 量 处 理 器 、 细 粒度 多 线程 处 理 器 、 粗 粒度 多 线程 处 理 器 、 双 核 CMP、 并 发 多 线 
程 (Simultaneous MultiThreaded, SMT) 处 理 器 。 超 标量 处 理 器 是 带 有 4 个 功能 单元 的 单线 程 处 理 
器 。 三 个 多 线程 处 理 器 都 是 4 路 多 线程 的 ， 复 用 4 条 功能 数据 路 径 。 在 双核 处 理 器 中 ， 两 个 处 理 




























































































































































































































































































核心 都 是 单线 程 的 2 路 超标 量 处 理 器 。 
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图 1-6 现代 CPU 处 理 器 的 5 种 微 体 系 结构 ， 通 过 多 核 和 多 线程 技术 支持 ILP 和 TLP 
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不 同 线程 的 指令 通过 特定 的 5 个 独立 线程 指令 的 影子 模式 来 区 分 。 典 型 的 指令 调度 模式 也 
再 次 体现 出 来 。 只 有 同一 个 线程 的 指令 才能 在 一 个 超标 量 处 理 器 上 执行 。 细 粒度 多 线程 在 每 个 
周期 切换 不 同 线程 上 指令 的 执行 。 粗 粒度 多 线程 在 切换 到 下 一 个 线程 前 在 相当 多 的 指令 周期 内 
执行 同一 个 线程 的 多 条 指令 。 多 核 CMP 完全 分 别 从 不 同 的 线程 执行 指令 。SMT 允许 在 一 个 时 钟 
周期 同时 调度 不 同 线程 的 指令 。 

这 些 执行 模式 近似 地 模拟 一 个 普通 程序 。 空 方块 对 应 在 一 个 特定 的 处 理 器 时 钟 周期 ， 某 一 
指令 数据 路 径 没 有 可 执行 的 指令 。 空 格 单元 越 多 ， 说 明 调 度 效 率 越 低 。 很 难 达到 每 个 处 理 器 周期 
ILP 最 大 化 或 TLP 最 大 化 。 这 里 的 意图 是 让 读者 理解 现代 处 理 器 5 种 不 同 的 微 体系 结构 的 典型 指 
令 调 度 模式 。 


1.2.2 大 规模 和 超大 规模 GPU 计算 


GPU 是 图 形 协 处 理 器 或 挂 载 在 计算 机 显卡 上 的 加 速 器 。GPU 将 CPU 从 视频 编辑 应 用 繁重 的 
图 形 任 务 中 解脱 出 来 。 世 界 上 第 一 个 GPU (GeForce 256) 是 由 NVIDIA 于 1999 年 推 向 市 场 。 这 
些 GPU 芯片 每 秒 至 少 可 以 完成 1 000 万 个 多 边 形 绘 制 ， 目前， 几乎 市 场 上 的 每 台 计 算 机 都 在 使 
用 。 一些 GPU 特性 也 被 集成 到 了 某 些 CPU 上 。 传 统 的 CPU 只 由 几 个 核 构 成 。 例 如 ，Xeon X5670 
有 6 个 核 。 然 而 ， 一 个 现代 GPU 芯片 集成 了 至 少数 百 个 处 理 核心 。 

不 像 CPU, GPU 有 一 个 慢 速 执行 多 并 发 线程 的 大 规模 并 行 吞 吐 体 系 结构 ， 而 不 是 在 一 个 通 
常 的 微 处 理 器 上 快速 地 执行 一 个 单独 的 长 线程 。 现 在 ， 并 行 GPU 和 GPU 集群 相对 使 用 限制 并 行 
的 CPU 已 经 获得 了 许多 关注 。GPU 上 的 通用 目的 计算 ,简称 为 GPCPU， 已 经 在 HPC 领域 出 现 。 
NVIDIA 的 CUDA 模型 就 是 用 于 HPC 中 加 入 CPCPU。 第 2 章 将 会 详细 讨论 用 于 天 规模 并 行 计算 的 
GPU 集群 (5.321 ` 

1.2.2.1 GPU 如 何 工作 

早期 的 GPU 功能 是 作为 附属 于 CPU 的 协 处 理 器 。 今 天 ，NVIDIA 的 GPU 已 经 升级 到 单 芯片 
集成 128 个 核心 。 而 且 ，GPU 上 每 个 核心 能 够 处 理 8 个 指令 线程 。 也 就 是 说 ， 在 一 个 GPU 上 最 
多 可 同时 执行 1024 个 线程 。 相 对 于 仅 能 处 理 几 个 线程 的 传统 CPU， 这 是 真正 的 大 规模 并 行 。 
CPU 通过 高 速 缓 存 得 到 优化 ， 而 GPU 的 优化 则 是 直接 管理 片上 内 存 释 放 更 高 的 吞吐 量 。 

现代 GPU 并 不 是 仅 限 于 加 速 图 形 和 视频 编码 。 它 们 还 应 用 于 HPC 系统 的 多 核 和 多 线程 级 别 
大 规模 并 行 超级 计算 机 。GPU 被 设计 用 于 处 理 大 批量 并 行 浮 点 运算 。 在 某 种 程度 上 ，GPU 让 
CPU 摆脱 了 所 有 数据 密集 型 计算 ， 而 不 只 是 那些 视频 处 理 相 关 的 计算 。 通 常 的 GPU 广泛 用 于 手 
OL. WMA. PARAS. PC 和 服务 器 。NVIDIA 的 CUDA Tesla 和 Fermi 用 于 GPU 集群 或 是 
HPC 系统 中 的 海量 浮 点 数据 并 行 处 理 。 

1.2.2.2 GPU 编程 模型 

图 1-7 所 示 是 并 行 执行 浮 点 操作 时 CPU 和 GPU 间 的 交互 。CPU 是 并 行 拓展 能 力 有 限 的 通用 
多 核 处 理 器 。GPU 拥有 数 百 个 简单 处 理 核心 组 织 为 多 处 理 器 的 众 核 体系 结构 。 每 个 核心 可 执行 
一 个 或 多 个 线程 。 本 质 上 说 ，CPU 的 浮 点 核心 计算 任务 极 大 地 被 众 核 CPU 承担 。CPU 指示 GPU 
进行 海量 数据 处 理 。 主 板 上 主 存 和 片上 GPU 内 存 间 带宽 必须 匹配 。 这 个 过 程 在 NVIDIA 的 CUDA 
编程 中 由 GeForce 8800 或 Tesla 和 Fermi GPU 完成 。 我 们 将 在 第 2 章 研 究 CUDA GPU 在 大 规模 集 
群 计 算 中 的 应 用 。 OZ] 

$11.1 512 CUDA 核心 的 NVIDIA Fermi GPU 芯 

2010 年 11 月， 世界 上 最 快 的 5 台 超 级 计算 机 中 有 3 & (Tianhe-1A, Nebulae 和 Tsubame) 使 
用 大 量 GPU 芯片 加 速 浮 点 计算 。 图 1-8 所 示 是 Fermi GPU 的 体系 结构 ，NVIDIA 的 下 一 代 GPU, 
这 是 一 个 流 式 多 处 理 器 (Streaming Multiprocessors, SM) 模型 。 多 个 SM 可 以 集成 在 一 块 GPU RH 
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片上 。Fermi 芯片 由 30 亿 个 晶体 管 形成 16 个 SM。 每 个 SM 由 512 个 流 式 处 理 器 (Streaming 
Processor, SP) 组 成 ， 称 为 CUDA 核心 。Tianhe-1A 中 使 用 的 Tesla GPU 有 着 与 之 相同 的 体系 结 
构 ， 有 448 个 CUDA 核心 。 








图 1-7 数 百 或 数 千 处 理 核心 的 海量 并 行 处 理 中 协同 CPU 的 GPU 使 用 
注 ; wW B. He 等 人 提供 ，PAT'08[23] 。 


Hi 


FP 单元 INT 单元 





图 1-8 16 个 流 式 多 处 理 器 (SM) ， 每 个 有 32 个 CUDA 核 的 NVIDIA Fermi GPU， 只 一 个 SM 被 


展示 出 来 。 更 多 细节 可 参阅 文献 [49 ] 
注 : 由 NVIDIA，2009 [36] 2011 提供 。 


Fermi GPU 是 较 新 一 代 的 GPU， 首 次 出 现在 2011 年 。Tesla 和 Fermi GPU 可 以 用 于 桌面 工作 
站 ， 以 加 速 浮 点 计算 或 者 用 于 建设 大 规模 数据 中 心 。 图 1-8 所 示 的 体系 结构 是 基于 2009 年 
NVIDIA 发 布 的 白皮书 [el 。 每 个 SM 有 32 个 CUDA 核心 。 图 1-8 中 只 是 一 个 SM。 每 个 CUDA 核 
心 有 一 个 简单 的 可 用 于 并 行 的 流水 线 式 整 型 运算 器 和 浮 点 运算 器 。 每 个 SM 有 16 个 用 于 每 个 时 
钟 周期 16 个 线程 计算 源 和 目的 地 址 的 读 / 写 单元 。 有 4 个 特殊 功能 单元 papon Function Unit, 
SFU) 用 于 执行 超越 指令 。 
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所 有 功能 单元 和 CUDA 核心 通过 NoC (Network on Chip, H LAH) 内 联 于 大 量 的 SRAM 存 
储 (12 cache) 。 每 个 SM 有 一 个 64 KB 的 L1 cache, 768 KB 的 统一 12 cache 由 所 有 的 SM 共享 并 
用 于 处 理 所 有 的 负载 、 存 储 和 结构 化 操作 。 内 存 控 制 器 用 于 连接 6CB 4 H DRAM, SM 调度 组 
中 纵向 的 32 个 并 行 线程 。 总 之 ，256/512 FMA (混合 乘法 和 加 法 ) 操作 可 以 并 行 执行 生成 32/64 
位 的 浮 点 数据 结果 。 如 果 充 分 利用 ,一 个 SM 中 的 512 A CUDA 核心 可 以 并 行 工作 得 到 515 Gflops 
的 双 精 度 运算 能 力 。16 个 SM， 单 GPU 峰值 速度 达 82.4 Tflops。 只 有 12 个 Fermi GPU 有 可 能 达 
到 Pflops 的 性 能 。 a 

在 将 来 ， 数 千 个 GPU 可 能 会 出 现在 大 规模 (Eflops 或 10" flops) 系统 中 。 这 反映 了 未 来 MPP 
建造 采用 两 种 类 型 芯片 的 混合 体系 结构 的 趋势 。 在 2008 年 9 月 DARPA 发 布 的 报告 中 ， 提 到 了 大 
规模 计算 的 4 个 挑战 : (1) 能 源 和 电力 ，(2) 内 存 和 外 部 存储 ，(3) 并 发 和 位 置 ， 以 及 (4) 
系统 弹性 。 这 里 我 们 看 到 了 伴随 CPU 在 节能 、 人 性 能 和 可 编程 性 方面 改进 的 GPU 的 进展 "“ 。 在 第 
2 章 ， 我 们 将 讨论 大 规模 集群 中 GPU 的 使 用 。 

1.2.2.3 GPU 的 节能 

斯 坦 福 大 学 的 Bill Dally 认为 能 量 和 海量 并 行 是 未 来 CPU 相对 于 CPU 的 主要 优势 。 以 现 有 技 
术 和 计算 机 体系 结构 推测 ， 运 行 一 个 百 亿 亿 次 系统 每 个 核心 需要 60 Gflops/W 能 量 ( 见 图 1-10)。 
能 量 约束 了 我 们 在 一 个 CPU 或 GPU 芯片 上 所 能 进行 的 搭载 。Dally 估计 出 CPU 芯片 每 条 指令 大 
约 消 耗 2nJ 能 量 ， 而 CPU 芯片 则 是 每 条 指令 200pJ 能 量 ， 是 CPU 的 1/10, CPU 针对 高 速 缓存 
(cache) 和 内 存 延 迟 进 行 优化 ， 而 GPU 是 针对 片上 内 存 外 部 管理 的 吞吐 量 进 行 优化 。 

图 1-9 比较 了 CPU 和 GPU 的 以 每 核心 每 瓦 Gflops 的 值 测量 的 性 能 /能 量 之 比 。2010 年 ，GPU 
在 核心 级 别 是 5 Gflops/W， 比 CPU 的 每 核心 1 Gflops/W 少 。 这 可 能 限制 未 来 超级 计算 机 的 规模 。 
然而 ，GPU 将 终结 CPU 的 这 种 局 限 。 数 据 运动 支配 着 能 量 消耗 。 这 需要 优化 应 用 的 存储 层次 和 
裁剪 内 存 。 我 们 需要 促进 自 感知 (self-aware) 操作 系统 和 运行 时 支持 ， 并 针对 基于 GPU 的 MPP, 
构建 位 置 感知 编译 器 和 自动 调节 器 。 这 表明 能 量 和 软件 是 未 来 并 行 和 分 布 式 计 算 系 统 的 真正 
挑战 。 





GPU-5 Gflops/W 


Gflops/W (核心 ) 








“D010 2013 2016 
图 1-9 GPU 性 能 (中 间 的 曲线 ，2011 年 每 个 核心 5 Gflop/ W), ， 相 比较 低 的 CPU PERE (下面 的 
曲线 ，2011 年 每 个 核心 0.8 Gflops/W), LAR 2011 年 预计 未 来 每 个 核心 60 Gflops/W 的 性 
能 (上面 曲线 中 的 EF) 
iż: 由 Bil Dally 提供 [15] 。 


1.2.3 内 存 、 外 部 存储 和 广域网 


1.2.3.1 内 存 技术 
1-10 中 上 面 的 曲线 描绘 了 DRAM 芯片 容量 的 增长 ， 从 1976 年 的 16 KB 到 2011 年 的 
64 GB。 这 显示 了 内 存 芯 片 在 容量 上 已 经 历 了 每 三 年 4 倍 的 增长 。 内 存 访问 时 间 没 有 提高 太 多 。 
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事实 上 ， 由 于 处 理 器 越 来 越 快 ， 内 存 墙 问题 变 得 越 来 越 精 糕 。 硬 盘 方面 ， 容 量 从 1981 年 的 260 
MB 增长 到 2004 年 的 250 CB。 希捷 Barracuda XT 硬盘 在 2011 年 达到 了 3 TB。 这 表示 在 容量 上 每 
8 年 约 有 10 倍 的 增长 。 磁 盘 阵列 容量 的 增长 在 接 下 来 的 几 年 将 会 更 大 。 更 快 的 处 理 器 速度 和 更 
大 的 内 存 容量 导致 处 理 器 和 内 存 间 更 大 的 差距 。 内 存 墙 将 可 能 会 成 为 限制 CPU 性 能 的 更 为 严重 
的 问题 。 
1.2.3.2 磁盘 和 存储 技术 
2011 年 以 来 ， 磁 盘 和 磁盘 阵列 容量 已 经 超过 了 3 TB。 图 1-10 中 下 面 的 曲线 显示 了 磁盘 存储 
在 33 年 中 增长 了 7 个 数量 级 。 闪 存 和 固态 硬盘 (Solid-State Drive, SSD) 的 飞速 增长 也 影响 着 未 
19 来 的 HPC 和 HTC 系统 。 固 态 硬 盘 的 损坏 率 并 不 太 坏 。 通 常 的 SSD 每 个 块 能 处 理 300 000 ~ 
20 | 1 000 000 写 操作 周期 。 所 以 SSD 能 维持 几 年 时 间 ， 即 使 是 在 高 写 使 用 率 的 情况 下 。 闪 存 和 SSD 
将 会 在 许多 应 用 中 示范 令 人 惊讶 的 速度 提升 。 


100 000 





一 和 ~ 磁盘 容量 | 
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Seagate 


Barracuda XT 
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图 1-10 过 去 33 年 中 内 存 和 磁盘 技术 的 改进 。2011 Æ, Seagate Barracuda XT 磁盘 容量 为 3 TB 

注 : 由 南 加 州 大 学 的 楼 肖 松 和 陈 理 中 提供 。 

最 后 ， 能 量 消耗 、 冷 却 和 包装 将 会 限制 大 系统 发 展 。 功 耗 关 于 时 钟 频率 呈 线 性 增长 ， 关 于 片 
上 电压 基 二 次 方 增长 。 时 钟 速率 不 能 无 限 地 增长 。 降 低 供电 电压 是 非常 需要 的 。Jim Gray 在 南 加 
州 大 学 的 一 次 受 邀 访谈 中 曾 说 , “磁带 已 经 不 复 存 在 ， 现 在 磁盘 就 是 磁带 ， 闪 存 就 是 磁盘 ， 内 存 
就 是 cache。” 这 清晰 地 描绘 了 未 来 的 磁盘 和 存储 技术 。2011 年 ， 在 存储 市 场 上 用 SSD 代替 稳定 
的 磁盘 阵列 仍然 过 于 昂贵 。 

1.2.3.3 系统 区 域 互 连 

小 集群 中 的 节点 大 多 通过 以 太 网 交换 机 和 局 域 网 (Local Area Network, LAN) 互联 。 如 图 
1-11 所 示 ，LAN 通常 用 于 连接 客户 机 和 大 服务 器 。 存 储 区 域 网 络 (Storage Area Network, SAN) 
连接 服务 器 和 网 络 存储 (如 磁盘 阵列 ) 。 网 络 附 加 存储 (Network Attached Storage, NAS) 直接 连 
接客 户 机 到 磁盘 阵列 。 所 有 三 种 类 型 的 网 络 经 常 出 现在 采用 商业 网 络 组 件 的 大 集群 中 。 如 果 没 

[21 | 有 大 的 分 布 式 存储 被 共享 ， 小 集群 可 以 采用 多 端口 交换 机 加 铀 缆 连 接 终端 机 器 。 所 有 三 种 类 型 

网 络 在 市 场 上 都 可 获得 。 
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图 1-11 三 种 连接 服务 器 、 客 户 机 、 存 储 设备 的 互连网 络 ，LAN 连接 客户 机 和 服务 器 ，SAN 连接 
服务 器 和 磁盘 阵列 ，NAS 连接 客户 机 和 网 络 环 境 中 大 规模 存储 系统 


1.2.3.4 广域网 络 
图 1-10 中 较 低 的 曲线 描绘 了 以 太 网 带宽 的 飞速 增长 ， 从 1979 年 的 10 Mbps 到 1999 年 的 
1 Gbps, 到 2011 年 的 40 ~100 GE。 我 们 可 以 推测 出 到 2013 年 将 达到 1 Tbps 的 网 络 连接 。 根 据 
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Berman, Fox 和 Hey 所 著 书 中 的 记载 ! , 2006 4Æ, 1000, 1000, 100, 10 和 1 Gbps 带宽 的 网 络 连 “ 


接 分 别 用 于 国际 、 国 家 、 组 织 、 光 纤 桌 面 和 铜 缆 桌 面 连接 。 

网 络 性 能 每 年 增长 2 倍 ， 快 于 摩尔 定律 在 CPU 上 每 18 个 月 翻 一 番 的 速度 。 这 意味 着 在 将 来 
更 多 的 计算 机 将 会 被 并 发 地 使 用 。 高 带宽 网 络 提高 了 建设 大 规模 分 布 式 系统 的 能 力 。IDC 2010 
报告 预测 无 限 带宽 和 以 太 网 会 成 为 HPC 领域 两 个 主要 互 连 选 择 。 大 部 分 数据 中 心 都 使 用 千 兆 位 
以 太 网 作为 服务 器 集群 间 的 互 连 。 
1.2.4 虚拟 机 和 虚拟 化 中 间 件 

通常 的 计算 机 只 有 一 个 单 操 作 系统 镜像 。 这 提供 了 应 用 软件 紧 耦 合 于 指定 的 硬件 平台 的 刚 
性 体系 结构 。 一 些 软件 虽然 在 一 台 机 器 上 运行 良好 ， 但 却 可 能 无 法 在 另 一 个 固定 操作 系统 下 有 具 
有 不 同 指令 集 的 平台 上 执行 。 针 对 未 充分 利用 的 资源 、 应 用 灵活 性 、 软 件 可 管理 性 、 存 在 于 物理 
机 的 安全 问题 ， 虚 拟 机 提供 了 新 的 解决 方案 。 

目前 ， 建 立 大 规模 集群 、 网 格 和 云 ， 我 们 需要 以 虚拟 的 方式 访问 大 量 的 计算 、 存储 和 网 络 化 
资源 。 我 们 需要 集群 化 这 些 资源 ， 并 希望 提供 一 个 单独 的 系统 镜像 。 特 别 地 ， 一 个 规定 资源 的 云 
必须 动态 地 依靠 处 理 器 、 内 存 和 LO 设备 的 虚拟 化 。 我 们 将 会 在 第 3 章 介绍 虚拟 化 。 然 而 ， 虚 拟 
资源 的 基本 概念 (如 虚拟 机 、 虚 拟 存 储 和 虚拟 网 络 ， 以 及 虚拟 软件 或 中 间 件 ) 需要 首先 介绍 。 
图 1-12 说 明了 三 种 虚拟 机 配置 体系 结构 。 

1.2.4.1 虚拟 机 

在 图 1-12 中 ， 主 机 配置 了 物理 硬件 ， 如 图 中 底部 所 示 。 一 个 例子 是 一 个 x86 体系 结构 台式 
计算 机 运行 已 安装 的 Windows 操作 系统 ， 如 图 1-12a 所 示 。 虚 拟 机 可 以 处 在 任何 硬件 系统 之 上 。 
虚拟 机 由 客户 端 操作 系统 管理 虚拟 资源 运行 指定 应 用 。 在 虚拟 机 和 主机 平台 之 间 ， 需 要 配置 一 
个 叫做 虚拟 机 监视 器 (Virtual Machine Monitor, VMM) 的 中 间 层 。 图 1-12b 所 示 是 一 个 本 地 虚拟 
机 ， 由 在 特权 模式 称 为 hypervisor 的 虚拟 机 监视 器 安装 。 例 如 ，x86 体系 结构 硬件 运行 一 个 
Windows 系统 。 

客户 端 操作 系统 可 以 是 Linux AYE, hypervisor 是 剑桥 大 学 开发 的 XEN 系统 。 这 种 管理 方法 
也 称 为 裸 机 虚拟 机 ， 因 为 hypervisor 直接 管理 原生 硬件 (CPU、 内 存 和 IO) 。 另 一 个 体系 结构 是 
主机 虚拟 机 ， 如 图 1-12c 所 示 。 这 里 VMM 运行 在 非特 权 模 式 。 主 机 操作 系统 不 需要 修改 。 虚 拟 
机 也 可 在 双 模 式 下 实现 ， 如 图 1-12d 所 示 。VMM 一 部 分 运行 在 用 户 级 ， 另 一 部 分 运行 在 特权 级 。 
这 种 情况 下 ， 主 机 操作 系统 可 能 在 某 些 范围 需要 修改 。 多 虚拟 机 可 以 实现 给 定 硬件 系统 的 接口 
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a) 物理 机 b) 本 地 虚拟 机 c) 主机 虚拟 机 d) 双 模 式 虚 拟 机 


图 1-12 三 种 虚拟 机 体系 结构 与 传统 的 物理 机 的 比较 
注 : 由 南 加 州 大 学 的 M. Abde-Majeed 和 S. Kulkami (2009) 提供 。 


以 支持 虚拟 化 过 程 。 虚 拟 机 方法 提供 了 操作 系统 和 应 用 的 硬件 独立 性 。 用 户 应 用 程序 和 其 所 在 
的 操作 系统 可 以 绑 定 在 一 起 作为 一 个 可 以 接口 任何 硬件 平台 的 虚拟 应 用 工具 。 虚 拟 机 可 以 在 一 
个 与 主机 操作 系统 不 同 的 操作 系统 上 运行 。 
1.2.4.2 虚拟 机 原始 操作 
VMM 提供 虚拟 机 摘要 给 客户 端 操作 系统 。 在 全 虚拟 化 中 ，VMM 提供 了 和 物理 机 相同 的 虚拟 
机 摘要 ， 以 至 于 一 个 标准 的 操作 系统 (如 Windows 2000 或 Linux) 可 以 像 在 物理 机 上 一 样 运行 。 
[23 | 底层 的 VMM 操作 由 Mendel Rosenblum!" 指出， 说 明 如 图 1-13 所 示 。 














c) 供应 (恢复 ) d) 动态 迁移 


图 1-13 “分布 式 计算 环境 中 的 虚拟 机 复 用 、 挂 起 、 供 应 和 迁移 

3%: 由 M. Rosenblum 提供 ，ACM ASPLOS2006!41) 。 

。 第 一 ， 虚 拟 机 可 以 在 硬件 机 器 上 复 用 ， 如 图 1-13a 所 示 。 

。 第 二 ， 虚 拟 机 可 以 挂 起 并 保存 在 一 个 稳定 存储 器 上 ， 如 图 1-13b 所 示 。 

。 第 三 ， 挂 起 的 虚拟 机 可 以 在 一 个 新 的 硬件 平台 上 恢复 或 者 供应 ， 如 图 1-13c 所 示 。 

。 第 四 ， 虚 拟 机 可 以 从 一 个 硬件 平台 迁移 到 另 一 个 硬件 平台 ， 如 图 1-13d 所 示 。 

这 些 虚拟 机 操作 使 虚拟 机 可 以 提供 给 任何 可 用 硬件 平台 ， 也 使 分 布 式 应 用 执行 的 接口 灵活 。 
此 外 ， 虚 拟 机 方法 有 效 地 提高 了 服务 器 资源 的 利用 率 。 多 服务 器 功能 可 以 在 相同 的 硬件 平台 上 
统一 以 获得 更 高 的 系统 效率 。 通 过 虚拟 机 系统 的 开发 消除 了 服务 器 的 扩张 ， 透 明 地 共享 硬件 。 通 
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过 这 种 方法 ，VMware 称 服务 器 利用 率 可 以 从 现在 的 5% ~ 15% 提高 到 60% ~ 80%, 

1.2.4.3 虚拟 基础 设施 

图 1-14 底部 用 于 计算 、 存 储 和 网 络 化 的 物理 资源 都 被 映射 到 顶部 集成 在 各 个 虚拟 机 需要 的 
应 用 上 ， 从 而 分 离 了 硬件 和 软件 。 虚 拟 基础 设施 完成 资源 到 分 布 式 应 用 的 连接 。 系 统 资源 到 特定 
应 用 的 映射 是 动态 的 。 这 降低 了 成 本 并 提高 了 效率 和 响应 。 用 于 服务 器 一 致 性 和 牵制 策略 的 虚 
拟 化 就 是 一 个 很 好 的 例子 。 我 们 将 在 第 3 章 讨论 虚拟 机 和 虚拟 化 支持 。 对 集群 、 云 、 网 格 的 虚拟 
化 支持 将 分 别 在 第 3 章 、 第 4 章 和 第 7 章 介 绍 。 

siti CSB 安装 的 服务 器 ( 百 万 ) 
] 一 物理 服务 器 安装 基础 ( 百 万 ) 

一 逻辑 服务 器 安装 基础 ( 百 万 ) 
$250 | 电能 和 冷却 费用 
a 管理 成 本 
$200 | 日 服务 器 开销 







r 80 
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图 1-14 近年 来 ， 数 据 中 心 的 服务 器 数量 增长 和 成 本 分 析 
资料 来 源 : IDC Report, 2009, 


1.2.5 云 计算 的 数据 中 心虚 拟 化 

在 这 一 节 ， 我 们 讨论 数据 中 心 的 基本 体系 结构 和 设计 考虑 。 云 计算 体系 结构 由 商业 硬件 
和 网 络 设备 建立 。 几 乎 所 有 的 云 平台 都 选择 使 用 流行 的 x86 处 理 器 。 低 成 本 的 太 字 节 磁盘 和 
千 兆 位 以 太 网 用 于 建设 数据 中 心 。 数 据 中 心 设计 强调 性 能 /价格 比 ， 而 不 是 单一 的 速度 性 能 。 
换 句 话说 ， 存 储 和 节能 比 只 看 速度 性 能 更 重要 。 图 1-14 显示 了 过 去 15 年 数据 中 心 的 服务 器 数 
量 增长 和 成 本 分 析 。2010 年 ， 全 世界 大 约 有 4300 万 台 服 务 器 在 使 用 。 三 年 后 ， 效 用 成 本 超过 
硬件 成 本 。 

1.2.5.1 数据 中 心 的 服务 器 数量 增长 和 成 本 分 析 

一 个 大 的 数据 中 心 可 能 有 数 千 台 服 务 器 。 较 小 的 数据 中 心 通常 有 数 百 台 服 务 器 。 近 年 来 ， 建 
设 和 维护 数据 中 心服 务 器 的 成 本 已 经 增长 。 根 据 一 份 2009 IDC 的 报告 〈( 见 图 1-14) ， 通 常数 据 中 
心 的 成 本 中 只 有 30% 用 于 购买 全 设 备 ( 如 服务 器 和 磁盘 )，33% 用 于 冷却 ，18% 用 于 不 间断 电 
源 供应 (Uninteruptible Power Supply, UPS), 9% 用 于 机 房 空调 (Computer Room Air Conditionary ， 
CRAC) ,余下 的 7% 用 于 能 量 发 送 、 照 明 、 变 压 器 耗费 。 因 此 ， 约 60% 的 数据 中 心 运行 成 本 用 于 
管理 和 维护 。 服 务 器 购买 成 本 没有 随 着 时 间 增 长 太 多 。 电 能 和 冷却 的 成 本 在 15 年 中 从 5% 增长 
到 14% 。 

1.2.5.2 低 成 本 设计 原则 

高 端 交 换 机 或 路 由 器 对 于 建造 数据 中 心 来 说 可 能 成 本 太 高 。 因 而 ， 使 用 高 带宽 网 络 可 能 不 
利于 云 计 算 的 经 济 性 。 给 定 固定 预算 ， 数 据 中 心 更 需要 商用 交换 机 和 网 络 。 类 似 地 ， 相 对 昂贵 的 
大 型 机 使 用 商用 x86 服务 器 会 更 好 。 软 件 层 处 理 网 络 流 量 均衡 、 容 错 和 扩展 性 。 现 在 ， 几 乎 所 有 
的 云 计 算数 据 中 心 都 使 用 以 太 网 作为 基础 网 络 技术 。 
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1.2.5.3 技术 的 融合 

实质 上 ， 云 计算 依托 以 下 四 个 方面 技术 的 融合 : (1) 硬件 虚拟 化 和 多 核 芯片 ，(2) 效用 和 
网 格 计算 ，(3) SOA, Web 2. 0 MMBIRSRA, UR (4) 原子 计算 和 数据 中 心 自 动 化 。 硬 件 
虚拟 化 和 多 核 芯片 使 云 中 的 动态 配置 成 为 可 能 。 效 用 和 网 格 计算 技术 是 云 计算 必需 的 基础 。 近 
来 在 SOA、Web 2. 0、 平 台 灶 合 上 的 进展 又 推动 云 计 算 向 前 迈 出 一 步 。 最 后 ， 云 计算 的 增长 要 归 
功 于 自治 计算 和 自动 化 的 数据 中 心 运作 的 进展 。 

Jim Gray 曾 提 出 下 面 的 问题 :“ 科 学 面 对 海 量 数据 。 如 何 管理 和 分 析 信 息 ?” 这 说 明科 学 和 我 
们 的 社会 同样 都 面临 海量 数据 的 挑战 。 数 据 来 自 于 传感器 、 实 验 、 仿 真 、 私 人 文档 ， 以 及 各 种 规 
模 和 格式 的 网 络 数据 。 保 存 、 移 动 和 访问 海量 数据 集 需 要 通用 工具 来 支持 高 性 能 、 可 扩展 文件 系 
统 、 数 据 库 、 算 法 、 工 作 流 和 虚拟 化 。 随 着 科学 变 成 以 数据 为 中 心 ， 一 个 新 的 科学 研究 范式 将 以 
数据 密集 型 技术 为 基础 。 

在 2007 年 1 月 11 日 ,《 计 算 机 科学 和 电子 通讯 》 (CSTB) 推荐 使 用 fostering 工具 进行 数 
据 捕获 、 数 据 生成 和 数据 分 析 。 四 个 技术 领域 中 存在 一 个 交互 周期 。 云 技术 由 海量 数据 发 掘 
的 热潮 驱动 。 另 外 ， 云 计算 极 大 地 影响 了 电子 化 科学 研究 ， 开 拓 了 多 核 和 并 行 计 算 技术 。 这 
两 个 热门 领域 使 海量 数据 累积 。 为 支持 数据 密集 型 计算 ， 需 要 解决 工作 流 、 数 据 库 、 算 法 和 
虚拟 化 问题 。 i 

通过 连接 讨 算 机 科学 技术 和 科学 家 ， 计 算 机 辅助 科学 和 研究 在 生物 、 化 学 、 物 理 、 社 会 科 
学 、 人 类 学 等 跨 学 科 活 动 已 经 形成 新 的 应 用 前 景 。 云 计算 如 其 所 承诺 的 是 比 数据 中 心 模 型 更 具 
变革 性 的 尝试 。 它 的 根本 性 改变 在 于 我 们 如 何 与 信息 交互 。 云 计算 在 体系 结构 、 平 台 、 软 件 级 别 
提供 按 需 服务 。 在 平台 级 别 ，MapReduce 提供 了 一 个 新 的 编程 模型 ， 可 以 透明 地 处 理 数据 并 行 并 
且 具 有 自然 的 容错 能 力 。 我 们 将 在 第 6 章 更 详细 地 讨论 。 

迭代 的 MapReduce 拓展 MapReduce 以 支持 更 广泛 的 科学 应 用 中 常用 的 数据 挖掘 算法 。 
云 运行 在 一 个 极 大 的 商用 计算 机 集群 上 。 对 每 个 集群 节点 ， 多 线程 通过 众 核 GPU 集群 的 大 
量 核心 实现 。 数 据 密集 型 科学 、 云 计算 、 多 核 计 算 在 体系 结构 设计 和 编程 挑战 上 正 向 下 一 
代 计 算 集 群 化 和 变革 。 它 们 激活 了 流水 线 : 数据 成 为 信息 和 知识 ， 并 促成 了 如 SOA 期 望 的 
机 器 智能 。 


1.3 分 布 式 和 云 计 算 系 统 模型 


分 布 式 和 云 计 算 系 统 都 建立 于 大 量 自治 的 计算 机 节点 之 上 。 这 些 节 点 通过 SAN, LAN 或 
WAN 以 层次 方式 互 连 。 利 用 现在 的 网 络 技术 ， 几 个 LAN 交换 机 可 以 方便 地 将 数 百 台 机 器 连接 成 
一 个 工作 集群 。 一 个 WAN 可 以 连接 许多 本 地 集群 形成 一 个 大 的 集群 的 集群 。 从 这 个 角度 看 ， 可 
以 建立 连接 边际 网 络 的 数 百 万 台 计 算 机 的 大 系统 。 

大 系统 被 认为 高 可 扩展 ， 并 能 在 物理 上 或 逻辑 上 达到 Web 规模 互 连 。 在 表 1-2 中 ， 大 系 
统 被 划分 为 四 组 : 集群 、P2P 网 络 、 计 算 网 格 、 大 数据 中 心 之 上 的 互联 网 云 。 借 助 于 节点 数 ， 
这 四 个 系统 分 类 可 能 包括 数 百 、 数 千 甚 至 数 百 万 台 计 算 机 作为 协同 工作 节点 。 这 些 机 器 在 各 
个 级 别 共同 、 合 力 、 协 作 地 工作 。 表 1-2 从 技术 和 应 用 层面 描述 了 这 四 个 系统 分 类 。 

从 应 用 的 角度 看 ， 集 群 在 超级 计算 应 用 中 最 流行 。2009 年 ，Top500 超级 计算 机 中 有 417 台 
是 采用 集群 体系 结构 构建 的 。 可 以 说 集群 已 成 为 建造 大 规模 网 格 和 云 必 需 的 基础 。P2P 网 络 对 商 
业 应 用 最 有 吸引 力 。 然 而 ， 内 容 业界 难以 接受 PP 技术 在 自 组 织 网 络 中 缺少 版 权 保护 的 弱点 。 
过 去 十 年 构建 的 许多 国家 网 格 都 没 能 充分 利用 ， 因 为 缺少 可 靠 的 中 间 件 或 编码 良好 的 应 用 。 云 
计算 潜在 的 优势 在 于 ， 对 提供 商 和 用 户 都 是 低 成 本 和 简单 的 。 
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表 1-2 并 行 和 分 布 式 计算 系统 分 类 
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1.3.1 协同 计算 机 集群 

一 个 计算 集群 由 互 连 的 协同 工作 的 独立 计算 机 组 成 ， 这 些 独立 计算 机 作为 单一 集成 的 计算 资源 
协同 工作 。 在 过 去 ， 集 群 式 的 计算 机 系统 在 处 理 重 负载 大 数据 集 任 务 方面 已 经 发 挥 了 重要 作用 。 

1.3.1.1 集群 体系 结构 

图 1-15 所 示 是 通常 的 建立 在 低 响 应 时 间 、 高 带宽 互连网 络 上 的 服务 器 集群 体系 结构 。 这 个 
网 络 可 以 像 SAN (如 Myrinet) 或 LAN (如 以 太 网 ) 一 样 简单 。 要 建立 更 多 节点 的 更 大 集群 ， 互 
连 网 络 可 以 建成 千 兆 位 以 太 网 、Myrinet 或 InfiniBand 交换 机 组 成 的 多 级 网 络 。 通 过 使 用 SAN, 
LAN 或 WAN 构成 层次 化 结构 ， 可 以 通过 增加 一 定数 量 的 节点 建立 可 扩展 的 集群 。 集 群 通过 虚拟 
专用 网 络 (VPN) 网 关 接 人 互联 网 。 网 关 卫 地 址 定位 了 集群 。 计 算 机 的 系统 镜像 由 操作 系统 管 
理 共 享 集群 资源 的 方式 决定 。 大 多 数 集群 的 节点 计算 机 是 松 耦 合 的。 一 个 服务 器 节点 的 所 有 资 
源 由 它 自 己 的 操作 系统 管理 。 因 此 ， 大 多 数 集群 因 在 不 同 操作 系统 下 有 很 多 自治 节点 而 有 多 个 
系统 镜像 。 






SAN、LAN、NAS 网 络 
(以 太 网 、Myrinet、 无 限 带宽 等 ) 






图 1-15 服务 器 集群 通过 高 带宽 SAN 或 LAN 互 连 以 共享 VO 设备 和 磁盘 阵列 ;集群 以 一 个 单独 
计算 机 的 身份 接 人 互联 网 27 


1.3.1.2 单 系统 镜像 28 
Greg Pfister ”声称 一 个 理想 的 集群 应 该 合并 多 个 系统 镜像 到 一 个 单 系统 镜像 (Single- System 
Image，SSI) 。 集 群 设计 者 期 待 一 个 集群 操作 系统 或 者 一 些 中 间 件 在 各 个 级 别 支 持 SSI， 包 括 跨 越 
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所 有 集群 节点 共享 CPU、 内 存 和 10。SSI 是 虚拟 的 、 由 软件 或 硬件 资源 集合 为 一 个 集成 的 、 强 
大 的 资源 镜像 。SSI 使 集群 在 用 户 看 来 像 一 个 单独 的 机 器 。 一 个 有 多 个 系统 镜像 的 集群 除了 一 群 
独立 的 计算 机 什么 都 不 是 。 

1.3.1.3 硬件 、 软 件 和 中 间 件 支持 

在 第 2 章 ， 我 们 将 讨论 小 型 和 大 规模 集群 的 设计 原理 。 和 集群 实践 大 规模 并 行 通常 称 为 MPP。 
几乎 所 有 的 Top500 中 的 HPC 集群 都 是 MPP 的 。 基 本 的 构成 部 件 包括 计算 机 节点 (PC、 工 作 站 、 
服务 器 或 SMP) 、 特 殊 的 通信 软件 (AN PVM 或 MPI) 和 每 个 计算 机 节点 上 的 网 络 接口 卡 。 大 多 数 
集群 在 Linux 操作 系统 下 运行 。 计 算 机 节点 通过 高 带宽 网 络 (如 千 兆 位 以 太 网 、Myrinet、 
InfiniBand 等 ) 互 连 。 

特殊 的 集群 中 间 件 支持 是 用 来 实现 SSI 或 高 可 用 性 (High Availability, HA), BRAMHAE 
序 都 可 以 在 集群 上 运行 ， 特 殊 的 并 行 环境 是 用 来 促进 集群 资源 的 使 用 。 例 如 ， 分 布 式 的 内 存 有 多 
个 镜像 。 用 户 可 能 想 要 通过 分 布 式 共享 内 存 (Distributed Shared Memory, DSM) 使 所 有 分 布 式 内 
存在 所 有 服务 器 上 共享 。 许 多 SSI 特性 在 不 同 集群 操作 级 别 的 实现 是 昂贵 或 难以 达到 的 。 在 没 实 
H SSI 时 ， 许 多 集群 是 机 器 间 松 耦合 的 。 通 过 虚拟 化 ， 可 以 根据 用 户 要 求 动态 地 建立 许多 虚拟 集 
群 。 我 们 将 在 第 3 章 讨 论 虚拟 集群 ， 在 第 4 章 、 第 5 章 、 第 6 章 和 第 9 章 讨论 虚拟 集群 在 云 计 算 
中 的 应 用 。 

1.3.1.4 主要 的 集群 设计 问题 

遗憾 的 是 ， 仍 没有 一 个 适合 集群 的 完全 资源 共享 的 操作 系统 。 现 有 的 中 间 件 和 操作 系统 扩 
展 都 是 在 用 户 空间 开发 的 ， 以 在 特定 功能 级 别 实现 SSI。 没 有 这 个 中 间 件 ,集群 节点 不 能 一 起 有 
效 工 作 来 实现 协同 计算 。 软 件 环 境 和 应 用 必须 依靠 中 间 件 来 达到 高 性 能 。 集 群 利益 来 自 于 可 扩 
展 的 性 能 、 有 效 的 消息 传递 、 高 系统 可 用 性 、 无 缝 容错 和 集群 视角 的 作业 管理 ， 如 表 1-3 所 示 。 
我 们 将 在 第 2 章 分 析 这 个 问题 。 
1.3.2 网 格 计算 的 基础 设施 

在 过 去 30 年 ， 用 户 经 历 了 一 个 从 互联 网 到 Web 和 网 格 计算 服务 的 自然 发 展 。 互 联网 服务 
(如 Telnet 命令 ) 使 本 地 计算 机 可 以 连接 到 一 台 远 程 计 算 机 。 一 个 Web IRS (CAN HTTP) 使 远程 
访问 Web 页 面 成 为 可 能 。 网 格 计算 被 预想 用 于 同时 在 多 台 远 距离 计算 机 上 运行 的 应 用 间 进 行 近 
趾 离 交互 。《 福 布 斯 杂志 》 已 经 预测 全 球 IT 经 济 将 从 2001 年 的 1 万 亿美 元 增长 到 2015 年 的 20 








© 


万 亿美 元 。 从 互联 网 到 Web 和 网 格 服 务 的 进展 在 这 个 增长 中 起 着 重要 作用 。 








表 1-3 ”关键 集群 设计 问题 和 可 行 实现 
































功能 描述 可 行 实现 

可 用 性 和 支持 硬件 和 软件 支持 保证 集群 持续 HA Wane RRR T 

硬件 容错 自主 的 错误 管理 避免 所 有 单 点 失效 AAT, HAE, RAD. SERENS 

通过 硬件 和 软件 支持 、 中 间 件 、 操 作 系 | 。 硬件 机 制 或 中 间 件 支持 用 来 在 缓存 一 致 性 级 别 

单 系统 镜像 (SSD | 统 拓展 ， 实 现 功能 级 别 SSI 达到 DSM 

有 效 通信 减少 消息 传递 的 系统 开销 和 隐藏 延迟 快速 消息 传递 、 动 态 消息 、 增 强 的 MPI 库 等 

集群 级 作业 管理 向 同人 局 作业 管理 系统 进行 更 好 的 调度 单 作业 管理 系统 应 用 ， 如 LSF、Codine 等 

动态 负载 均衡 连同 错误 恢复 平衡 所 有 处 理 节点 的 负载 | ORE. MMe. Lee. EES 
随 着 负载 或 数据 集 的 增长 ， 加 入 更 多 服 | 。 使 用 可 扩展 互 连 、 性 能 监测 、 分 布 式 执行 环境 

可 扩展 性 和 可 编程 性 | 务 器 到 集群 或 加 入 更 多 集群 到 网 格 和 更 好 的 软件 工具 
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1.3.2.1 计算 网 格 
像 电 力 网 格 一 样 ， 一 个 计算 网 格 提供 一 个 基础 设施 ， 可 以 把 计算 机 、 软 件 / 中 间 件 、 特 殊 指 
令 、 人 和 传感器 结合 起 来 。 网 格 通常 被 架构 在 LAN、WAN 或 者 地 区 性 、 全 国 性 或 全 球 规模 的 互 
联网 骨干 网 络 上 。 企 业 或 组 织 将 网 格 呈 现 为 集成 的 计算 资源 。 它 们 也 可 以 被 视 为 支持 虚拟 组 织 
的 虚拟 平台 。 网 格 中 的 计算 机 主要 是 工作 站 、 服 务 器 、 集 群 和 超级 计算 机 。 个 人 计算 机 、 笔 记 本 
电脑 和 PDA 可 以 作为 访问 网 格 系统 的 设备 。 
图 1-16 所 示 是 一 个 建立 在 为 不 同 组 织 所 拥有 的 多 个 计算 资源 上 的 计算 网 格 的 例子 。 资 源 站 
点 提供 补充 的 计算 资源 ， 包 括 工 作 站 、 大 服务 器 、 处 理 器 网 格 和 Linux 集群 来 满足 计算 需求 链 。 
网 格 建立 在 各 种 IP 宽带 的 网 络 上 ， 包 括 互联 网 上 已 被 企业 和 组 织 使 用 的 LAN 和 WAN。 网 格 对 用 
户 来 说 是 一 个 集成 的 资源 池 ， 如 图 1-16 上 半 部 分 所 示 。 
特殊 指令 可 能 包括 ， 如 在 SETI@ Home 使 用 射电 望远镜 在 银河 中 搜寻 生命 和 在 austrophysics 
@ Swinebume 搜索 脉冲 星 。 在 服务 器 端 ， 网 格 是 一 个 网 络 。 在 客户 端 ， 我 们 看 到 的 是 有 线 的 或 无 
线 的 终端 设备 。 网 格 作 为 租用 服务 集成 了 计算 、 通 信 、 内 容 和 事务 。 企 业 和 消费 者 形成 了 用 户 基 
础 ， 从 而 决定 了 使 用 率 趋 势 和 服务 特点 。 许 多 国家 级 和 国际 级 网 格 将 在 第 7 章 介绍 ， 包 括 美国 的 
NSF TeraGrid、 欧 洲 的 EGEE 和 中 国 的 ChinaGrid， 用 于 多 种 科研 网 格 应 用 。 
1.3.2.2 网 格 家 族 
网 格 技术 要 求 新 的 分 布 式 计算 模型 、 软 件 / 中 间 件 支持 、 网 络 协 议和 硬件 基础 设施 。 紧 随 国 
家 网 格 项 目 之 后 ，IBM、Microsoft、Sun、HP、Dell、Cisco、EMC、Platform Computing 等 开发 了 工 
业界 网 格 平台 。 新 的 网 格 服务 提供 商 (Grid Service Provider, GSP) 和 新 的 网 格 应 用 已 经 迅速 形 
成 ,类似 于 过 去 20 年 互联 网 和 Web 服务 的 增长 。 在 表 1-4 中 ， 网 格 系统 从 本 质 上 被 分 为 两 类 : 
计算 或 数据 网 格 和 PP 网 格 。 计 算 或 数据 网 格 主要 是 建立 在 国家 级 别 。 在 第 7 章 ， 我 们 会 介绍 一 
些 网 格 应 用 和 经 验 。 
时 学 过 生生 半 轩 信阳 六 从 笋 分 轩 全 入 入 全 六 全 人 人 及 
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图 1-16 计算 网 格 或 数据 网 格 通过 资源 共享 和 多 个 组 织 间 合 作 提 供 了 计算 效用 、 数 据 和 信息 服务 
表 1-4 两 个 网 格 计算 基础 设施 和 代表 性 系统 


计算 和 数据 网 格 





设计 问题 









开放 网 格 带 有 P2P 灵活 性 、 所 有 资源 








iy 级 i 
网 格 应 用 分 布 式 超级 计算 、 国 家 网 格 等 来 自 客户 机 
代表 性 系统 ey 国 的 ChinaGrid、 | 。 JXTA、FightAid@ home, SETI@ home 
已 知 开发 经 验 受 限 的 用 户 组 、 中 间 件 漏洞 、 耗 资 不 可 信和 的 用 户 贡 献 资 源 、 受 限于 少数 






源 的 协议 儿 个 应 用 
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1.3.3 ”对 等 网 络 家 族 

一 个 广 为 大 家 所 知 的 分 布 式 系统 的 例子 是 客户 端 服务 器 体系 结构 。 在 这 个 场景 中 ， 客 户 机 
(PC 和 工作 站 ) 被 连接 到 一 个 中 央 服 务 器 ， 用 来 进行 计算 、 电 子 邮 件 、 文 件 访问 和 数据 库 应 用 。 
P2P 体系 结构 提供 了 一 个 分 布 式 的 网 络 化 系统 模型 。 最 初 ，P2P 网 络 是 面向 客户 端 而 不 是 面向 服 
务 器 。 本 节 将 在 物理 层 和 逻辑 层 覆 盖 网 络 介绍 PP 系统 。 

1.3.3.1 P2P 系统 

在 一 个 PP 系统 中 ， 每 个 节点 既是 客户 端 又 是 服务 器 ， 提 供 部 分 系统 资源 。 节 点 机 器 都 是 
简单 的 接 人 互联 网 的 客户 机 。 所 有 客户 机 自治 、 自 由 地 加 入 和 退出 系统 。 这 表明 对 等 节点 间 不 存 
在 主 从 关系 。 无 需 中 心 协作 或 中 心 数 据 库 。 换 句 话 说， 没有 节点 机 器 拥有 整个 PP 系统 的 全 局 
视野 。 系 统 是 分 布 式 控制 下 自 组 织 的 。 

图 1-17 在 两 个 抽象 层次 展示 了 P2P 网 络 的 体系 结构 。 初 始 时 ， 节 点 间 是 完全 不 相关 的 。 每 
个 节点 自由 地 加 入 或 退出 PP 网 络 。 任 何 时候 都 只 有 一 起 参加 的 节点 形成 物理 网 络 。 不 像 集群 
或 网 格 ，P2P 网 络 没 有 使 用 一 个 专 一 的 互连网 络 。 物 理 网 络 是 一 个 简单 的 在 各 种 互联 网 域 使 用 
TCP/IP 和 NAI 协议 随机 地 形成 的 特殊 网 络 。 因 此 ， 物 理 网 络 因 P2P 网 络 中 自由 的 组 织 关系 而 在 
大 小 和 拓扑 结构 上 动态 变化 。 

1.3.3.2 RAAM 

数据 项 或 文件 分 布 在 一 起 参加 的 节点 中 。 基 于 通信 或 文件 共享 需求 ， 对 等 节点 (peer) ID 
在 逻辑 层 形成 一 个 履 盖 网 络 。 这 是 通过 逻辑 地 上 映射 每 台 物 理 机 为 其 ID 而 形成 的 虚拟 网 络 ， 虚 拟 
映射 如 图 1-17 所 示 。 当 一 个 新 的 对 等 节点 加 入 系统 ， 它 的 对 等 节点 ID 作为 一 个 节点 加 入 到 网 络 
中 。 当 一 个 存在 的 对 等 节点 离开 系统 ， 它 的 对 等 节点 D 会 自动 地 从 覆盖 网 络 中 移 除 。 因 此 ， 刻 
画 对 等 节点 间 逻 辑 连 接 的 是 P2P 覆盖 网 络 。 


ers eee 


Paces 





PP 网络。 


图 1-17 通过 映射 物理 IP 网 络 到 一 个 覆盖 网 络 络 建立 虚拟 链接 的 P2P 系统 结构 
32] 注 : 由 中 国 科学 院 计算 所 李 振 字 提供 。 


覆盖 网 络 有 两 类 : 非 结 构 化 的 和 结构 化 的 。 非 结构 化 的 履 盖 网 络 可 以 用 随机 图 来 描述 。 节 点 
间 没 有 固定 的 路 线 发 送 消息 或 文件 。 通 常 ， 在 一 个 非 结 构 化 网 络 中 使 用 泛 洪 向 所 有 节点 发 出 一 
个 查询 ， 因 而 导致 了 巨大 的 网 络 流量 和 不 确定 的 查询 结果 。 结 构 化 履 盖 网 络 遵循 确定 的 连接 拓 
扑 和 从 覆盖 图 中 插入 与 删除 对 等 节点 (peer ID) 的 规则 。 路 由 机 制 是 利用 结构 化 重 秋 开发 的 。 

1.3.3.3 P2P 应 用 族 

基于 应 用 ，P2P 网 络 被 分 成 4 组 ， 如 表 1-5 所 示 。 第 一 族 是 P2P 网 络 上 分 布 式 数字 内 容 ( 音 
乐 、 视 频 等 ) 的 文件 共享 。 这 包括 许多 流行 的 PP 网 络 ， 如 Gnutella, Napster 和 BitTorrent 等 。 
合作 P2P 网 络 包括 MSN 或 Skype 聊天 、 即 时 消息 和 合作 设计 等 。 第 三 族 是 针对 科学 应 用 中 的 分 
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布 式 P2P 计算 。 例 如 ，SETI@ home 提供 25 Tflops 的 分 布 式 计算 能 力 ， RTH 300 万 台 互 联网 
主机 。 其 他 P2P 平 台 ， 如 JXTA、. NET 和 FightingAID@ home， 支 持 命名 、 发 现 、 通 信 、 安 全 ， 以 
及 在 一 些 PP 应 用 中 的 资源 集群 化 。 我 们 将 在 第 8 章 和 第 9 章 更 详细 地 讨论 这 些 主题 。 


1-5 P2P 网 络 家 族 主要 分 类 [4 
分 布 式 文件 共享 合作 平台 分 布 式 P2P 计算 
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运行 问题 格 的 在 线 版 权 侵害 合作 者 和 节点 共 谋 性 协议 











x ICQ、 AIM、 Groov ~ 
， een Napster - iol e SETI@ home, Geo- JXTA, . NET, Fig- 
样 例 系 统 Mule、BitT ~ Ai- ` T~ 7 
R eMule, Ditlorreni Magi, Multiplayer, Ga nome@ home 等 htingAid@ home 等 






mster, KaZaA 等 











mes, Skype 等 





1.3.3.4 P2P 计算 挑战 

P2P 计算 在 硬件 、 软 件 和 网 络 需 求 上 面临 三 类 异 构 问 题 。 有 太 多 的 硬件 模型 和 体系 结构 而 无 
法 选择 ;软件 和 操作 系统 间 不 相 容 ; 不 同 的 网 络 连接 和 协议 使 其 过 于 复杂 而 无 法 应 用 于 真实 应 [33]] 
用 。 我 们 需要 随 着 负载 增加 扩展 系统 。 系 统 规模 直接 决定 于 性 能 和 带宽 。P2P 网 络 有 这 些 性 质 。 
数据 位 置 对 集体 性 能 的 影响 也 很 重要 。 数 据 局 部 性 、 网 络 邻近 性 和 互 操作 性 是 分 布 式 P2P 应 用 
的 设计 目标 。 

P2P 性 能 受到 路 由 效率 和 组 节点 间 自 组 织 的 影响 。 容 错 、 失 效 管理 和 负载 均衡 都 是 使 用 覆盖 
网 络 另 外 面临 的 重要 问题 。 对 等 节点 间 信 任 的 缺乏 形成 了 另 一 个 问题 。 对 等 节点 间 互 相 是 陌生 
的 。 安 全 、 隐 私 和 版 权 违反 是 工业 界 对 于 在 商业 应 用 中 使 用 P2P 技术 的 主要 担忧 *!。 在 一 个 
P2P 网 络 中 ， 所 有 客户 端 提供 的 资源 包括 计算 能 力 、 存 储 空间 和 IO 带宽 。P2P 网 络 的 分 布 式 特 
性 也 增加 了 健壮 性 ， 因 为 有 限 的 对 等 节点 失效 不 会 造成 单 点 失效 。 

通过 在 多 个 对 等 节点 间 复 制 数据 ， 很 容易 丢掉 失效 节点 上 的 数据 。 另 外 ，P2P 网 络 也 存在 缺 
点 。 因 为 系统 不 是 中 央 集 中 的 ， 管 理 比较 困难 。 此 外 ， 系 统 缺乏 安全 性 。 任 何人 都 可 以 登录 系统 
并 引起 损坏 或 滥用 。 而 且 ， 所 有 连接 到 PP 网 络 的 客户 机 不 能 被 认为 可 靠 或 无 病毒 。 总 之 ，P2P 
网 络 对 于 少量 对 等 节点 是 可 靠 的 。 仅 对 低级 别 安 全 要 求 并 且 不 涉及 敏感 数据 的 应 用 有 用 。 我 们 
将 在 第 8 章 讨 论 P2P 网 络 ， 在 第 9 章 拓 展 P2P 网 络 到 社会 网 络 。 
1.3.4 互联 网 上 的 云 计 算 

Gordon Bell, Jim Gray 和 Alex Szalay 呈 提倡 :“ 计 算 科学 正 向 数据 密集 型 转变 。 超 级 计算 机 必 
须 是 一 个 平衡 的 系统 ， 不 仅 是 CPU， 还 要 有 千 光 规模 的 WO 和 网 络 阵列 。” 将 来 ， 处 理 大 数据 集 
将 通常 意味 着 把 计算 (程序) 发 送 给 数据 ， 而 不 是 复制 数据 到 工作 站 。 这 反映 了 开业 计算 和 数 
据 从 桌面 向 大 规模 数据 中 心 移动 的 趋势 ， 以 服务 的 方式 按 需 提供 软件 、 硬 件 和 数据 。 数 据 爆 炸 促 
发 了 云 计算 的 思想 。 

许多 用 户 和 设计 者 对 云 计算 给 出 了 不 同 的 定义 。 例 如 ，IBM ( 云 计算 领域 的 主要 发 起 者 ) 给 
出 了 如 下 定义 :“ 云 是 虚拟 计算 机 资源 池 。 云 可 以 处 理 各 种 不 同 的 负载 ， 包 括 批 处 理 式 后 端 作业 
和 交互 式 用 户 界面 应 用 。” 基 于 这 个 定义 ， 云 通过 迅速 提供 虚拟 机 或 物理 机 允许 负载 被 快速 配置 
和 划分 。 云 支持 元 余 、 自 恢复 、 高 可 扩展 编程 模型 ， 以 允许 负载 从 许多 不 可 避免 的 硬件 /软件 错 
误 中 恢复 。 最 终 ， 云 计算 系统 可 以 通过 实时 监视 资源 来 确保 分 配 在 需要 时 平衡 。 
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1.3.4.1 互联 网 云 
云 计 算 提 供 了 一 个 虚拟 化 的 按 需 动态 供应 硬件 、 软 件 和 数据 集 的 弹性 资源 平台 ( 见 图 
1-18)。 它 的 思想 是 将 桌面 计算 移 到 面向 服务 的 平台 上 ， 使 用 数据 中 心 的 服务 器 集群 和 大 数据 库 。 
Ba] 云 计 算 利 用 它 的 低 成 本 和 易 用 性 ， 使 用 户 和 提供 商 双赢 。 机 器 虚拟 化 使 之 如 此 划算 。 云 计算 意图 
同时 满足 多 用 户 应 用 。 云 生态 系统 必须 被 设计 成 安全 、 可 信和 可 靠 的 。 一 些 计算 机 用 户 认为 云 就 
是 一 个 集中 式 资源 池 。 其 他 人 则 认为 云 是 在 所 有 使 用 的 服务 器 上 实践 分 布 式 计算 的 服务 器 集群 。 








服务 






图 1-18 数据 中 心 的 虚拟 化 资源 形成 互联 网 云 ， 向 付费 用 户 提供 硬件 、 软 件 、 存 储 、 网 络 和 服 
务 以 运行 他 们 的 应 用 
13.4.2 云 前 景 
通常 ， 一 个 分 布 式 计算 系统 属于 自治 的 管理 域 (如 一 个 科研 实验 室 或 公司 ) ， 运 行 一 个 固定 
的 计算 需求 。 然 而 ， 这 些 传 统 系统 遭遇 了 几 个 性 能 瓶颈 : 日 常 系统 维护 、 低 利用 率 、 硬 件 / 软 件 
升级 引起 的 成 本 增加 。 云 计算 作为 一 个 按 需 计算 范式 解决 或 减轻 了 这 些 问题 。 图 1-19 描述 云 前 
景 和 主要 云 开拓 者 ， 基 于 三 个 云 服 务 模型 。 第 4 章 、 第 6 章 和 第 9 章 将 给 出 关于 云 服务 的 详细 说 
明 。 第 3 章 将 介绍 相关 的 虚拟 化 工具 。 
o 基础 设施 即 服务 〈IaaS) : 这 个 模型 将 用 户 需要 的 基础 设施 〈 即 服务 器 、 存 储 、 网 络 和 数 
据 中 心 构 造 ) 组 合 在 一 起 。 用 户 可 以 在 使 用 客户 机 操作 系统 的 多 个 虚拟 机 上 配置 和 运行 
指定 应 用 。 用 户 不 管理 或 控制 底层 的 云 基础 设施 ， 但 可 以 指定 何 时 请 求 和 释放 所 需 资源 。 
。 平台 即 服务 (PaaS): 这 个 模型 使 用 户 能 够 在 一 个 虚拟 的 云 平台 上 配置 用 户 定制 的 应 用 。 
PaaS 包括 中 间 件 、 数 据 库 、 开 发 工具 和 一 些 运 行 时 支持 (如 Web 2.0 和 Java)。 平台 包括 
集成 了 特定 程序 接口 的 硬件 和 软件 。 提 供 商 提供 API 和 软件 工具 (如 Java, Python, Web 
2.0 和 .NET) 。 用 户 从 云 基础 设施 的 管理 中 得 以 解脱 。 
© 软件 即 服务 (SaaS): 这 是 指 面向 数 千 付 费 云 用 户 的 初始 浏览 器 的 应 用 软件 。SaaS 模型 应 
用 于 业务 流程 、 工 业 应 用 、 客 户 关系 管理 (Consumer Relationship Management, CRM) 、 
企业 资源 计划 (Enterprise Resource Planning, ERP), A28% (Human Resources, HR) 
和 合作 应 用 。 在 用 户 这 边 ， 没 有 服务 器 或 软件 许可 方面 的 前 期 投入 。 在 提供 商 这 边 ， 同 
B5] 传统 的 用 户 应 用 服务 器 相 比 ， 成 本 相当 低 。 
互联 网 云 提供 4 种 配置 模式 : 私有 、 公 有 、 受 管理 、 混 合 。 这 些 模 式 对 安全 有 不 同 的 要 求 。 
不 同 的 SLA 表明 安全 责任 由 云 提 供 商 、 云 资源 用 户 和 第 三 方 云 软件 提供 商 共 享 。 云 计算 的 优势 
已 经 被 许多 IT 专家 、 工 业界 领导 者 和 计算 机 科学 研究 者 提倡 。 
在 第 4 章 ， 我们 将 描述 已 经 建立 的 主要 云 平台 和 各 种 云 服 务 。 下 面 列表 突出 了 8 个 原因 以 适 
应 云 的 升级 的 互联 网 应 用 和 Web 服务 。 
1) 理想 的 位 置 要 有 受 保护 的 空间 和 更 高 的 能 效 。 
2) 在 大 用 户 池 间 共享 峰值 负载 能 力 ， 提 升 总 体 效 用 。 
3) 基础 设施 维护 责任 从 特定 领域 应 用 开发 中 分 离 。 
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IaaS: 提供 一 个 数据 
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3%: 由 Dennis Gannon 在 Cloudcom2010[19] 的 报告 中 给 出 。 


4) 与 传统 计算 范式 相 比 ， 云 计算 的 成 本 有 效 地 减少 了 。 
5) 云 计 算 编 程 和 应 用 开发 。 

6) 服务 和 数据 发 现 与 内 容 / 服 务 分 布 。 

7) 隐私 、 安 全 、 版 权 和 可 靠 性 问题 。 

8) 服务 协议 、 业 务 模型 和 价格 策略 。 


1.4 分 布 式 系统 和 云 计算 软件 环境 


本 节 将 介绍 使 用 分 布 式 和 云 计算 系统 的 流行 软件 环境 。 第 5 章 和 第 6 章 将 更 深入 地 讨论 这 个 
主题 。 

1.4.1 面向 服务 的 体系 结构 (SOA) 

在 网 格 /Web 服务 、Java 和 CORBA FH, KESIRA, Java 对 象 和 各 种 语言 中 的 CORBA 
分 布 式 对 象 。 这 些 体系 结构 建立 在 传统 的 提供 基础 网 络 抽象 的 开放 系统 互 连 协议 (Open Systems 
Interconnection, OSI) 层 之 上 。 在 这 之 上 ,我 们 有 一 个 基础 的 软件 环境 ， 可 能 是 面向 Web 服务 的 
. NET 或 Apache Axis、 面 向 Java 的 Java 虚拟 机 和 面向 CORBA 的 代理 网 络 。 在 基础 环境 之 上 应 建 
立 一 个 反映 分 布 式 系统 环境 特殊 特性 的 更 高 层级 的 环境 。 这 开始 了 实体 接口 和 内 部 实体 通信 ， 
在 实体 而 非 位 级 重建 了 OSI 协议 栈 的 最 上 四 层 。 图 1-20 显示 了 面向 使 用 Web 服务 和 网 格 系统 的 
分 布 式 实体 的 分 层 体系 结构 。 

1.4.1.1 Web 服务 和 网 格 分 层 体系 结构 

在 这 些 分 布 式 系统 例子 中 ， 实 体 接 口 对 应 Web 服务 描述 语言 (Web Services Description 
Language, WSDL), Java 方法 和 CORBA 接口 定义 语言 (Interface Definition Language, IDL) 规范 。 
在 这 三 个 例子 中 ， 这 些 接口 与 定制 化 的 高 级 通信 系统 连接 : SOAP、RMI 和 IOP。 这 些 通信 系统 
支持 特殊 消息 模式 (如 远程 过 程 调用 (Remote Procedure Call ，RPC) ) 、 错 误 恢 复 和 专门 路 由 。 通 
常 ， 这 些 通信 系统 建立 在 面向 消息 的 中 间 件 (企业 总 线 ) 设备 ， 如 WebSphere MQ, RAHET E 
富 功能 、 支 持 虚 拟 化 路 由 、 发 送 者 、 接 收 者 的 Java 消息 服务 (Java Message Service, JMS), 

在 容错 的 情况 下 ，Web 服务 可 靠 性 消息 传递 (Web Services Reliable Messaging, WSRM) 框 
架 的 特性 模拟 OSI 协议 能 力 (如 TCP 容错 ) 在 实体 级 别 修改 以 匹配 不 同 的 抽象 (如 消息 对 应 包 、 
虚拟 化 地 址 映射 ) 。 安 全 是 一 个 关键 能 力 ， 不 论 是 使 用 还 是 重新 实现 此 能 力 ， 如 在 互联 网 协议 安 
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全 (Internet Protocol Security, IPSec) 和 0SI 层 的 安全 套 接 概念 中 所 见 。 实 体 通信 由 更 高 级 的 注 
册 、 元 数据 和 实体 管理 服务 所 支持 ， 这 将 在 5.4 节 进 行 讨论 。 
这 里 ， 可 以 得 到 几 个 模型 ， 例 如 ，JNDI 












服务 发 现 和 信息 o 
”服务 互联 网 传输 > 协议 服务 接口 


特定 应 用 服务 /网 格 高 级 别 
(Jini and Java Naming Directory Interface, Jini | 通用 服务 和 网 格 工作 流 服务 
和 Java 命名 的 目录 接口 ) 说 明了 Java 中 分 布 Bym ~ t 服务 上 


式 对 象 模型 的 不 同 尝 试 。CORBA 交易 服务 、 
UDDI (通用 描述 、 发 现 、 集 成 )、LDAP (#% 





Vad 


位 级 
互联 网 








量 级 目录 访问 协议 ) 和 ebXML (使 用 可 扩展 ae 
标记 语言 的 电子 商务 ) 也 是 5.4 节 中 描述 的 oe 


Session SSH ... 


其 他 一 些 发 现 和 信息 服务 的 例子 。 管 理 服务 Transport TCP UDP .. 
包括 服务 状态 和 生命 周期 支持 ; 例子 包括 Data link/Physical 
CORBA 生命 周期 和 持久 化 状态 、 不 同 的 企业 
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图 1-20 Web 刁 次 化 体系 结 术 
级 JavaBean 模型 、Jini 生命 周期 模型 和 第 eb 服务 和 网 格 的 层次 化 体系 结构 





章 的 一 套 Web 服务 规范 。 上 述 语 言 或 接口 术语 形成 了 实体 级 能 力 集合 。 

后 者 有 性 能 上 的 优势 并 能 提供 一 个 “共享 内 存 ” 模 型 ， 使 得 信息 交换 更 方便 。 然 而 ,分布 
式 模型 有 两 个 主要 优势 : 更 高 的 性 能 (〈 当 通信 不 重要 时 来 自 多 CPU) 和 具有 清晰 软件 重用 和 维 
护 优 势 的 更 简洁 的 软件 功能 分 离 。 分 布 式 模型 被 期 待 如 默认 软件 系统 方法 一 样 得 到 普及 。 早 些 
年 间 ，CORBA 和 java 方法 比 今天 的 SOAP、XML BK REST (表征 性 状态 转移 ) 更 多 地 应 用 于 分 布 
式 系统 。 

1.4.1.2 Web 服务 和 工具 

松 斐 合 和 蜡 构 实 现 支 持 使 服务 比分 布 式 对 象 更 有 吸引 力 。 图 1-20 提 到 两 个 服务 体系 结构 选 
择 : Web 服务 或 REST 系统 (第 5 章 有 更 深入 的 讨论 ) Web 服务 和 REST 系统 都 与 建立 可 靠 互 
操作 的 系统 有 明显 差距 。 在 Web 服务 中 ， 意 在 详细 说 明 服 务 的 所 有 方面 和 环境 。 此 规范 带 有 简 
单 对 象 访问 协议 (Simple Object Access Protocol, SOAP) 的 通信 消息 。 主 机 环境 成 为 一 个 使 用 
SOAP 消息 达到 完全 分 布 式 能 力 的 通用 分 布 式 操 作 系统 。 这 种 方法 已 经 混合 成 功 ， 由 于 很 难 在 协 
议 关键 部 分 达成 一 致 并 且 通 过 软件 (4 Apache Axis) 更 难 有 效 实现 协议 。 

fe REST 方法 中 ,采用 简单 原则 (如 通用 原则 ) 并 把 大 多 数 难 以 解决 的 问题 交 给 应 用 (实现 
规范 ) 软件 。 在 一 个 Web 服务 语言 中 ，REST 在 信息 头 中 信息 量 最 小 ， 消 息 主 体 〈 对 通常 的 消息 
过 程 ， 这 是 不 透明 的 ) 携带 了 所 有 需要 的 信息 。 显 然 ，REST 体系 结构 更 适合 飞速 发 展 的 技术 环 
境 。 然 而 ，Web 服务 的 思想 是 重要 的 并 将 可 能 在 一 些 成 熟 的 系统 被 不 同 级 别 的 协议 栈 〈 作 为 应 
用 的 一 部 分 ) 所 需要 。 注 意 ，REST 可 以 用 XML 而 非 SOAP 的 一 部 分 ; “HTTP 之 上 的 XML” 是 
这 个 关系 中 流行 的 设计 选择 。 在 通信 和 管理 层 之 上 ， 我们 可 以 通过 集合 几 个 实体 组 成 新 的 实体 
或 分 布 式 程序 。 

在 CORBA 和 Java 中， 分 布 式 实体 由 RPC 连接 ， 构 建 组 合 应 用 的 最 简单 方式 是 视 实体 为 对 象 
并 使 用 传统 的 方式 将 它们 连接 到 一 起 。 对 于 Java， 这 可 以 如 同 用 远程 方法 调用 (Remote Method 
Invocation, RMI) 代替 方法 调用 编写 一 个 Java 程序 一 样 简单 ， 而 CORBA 支持 一 个 类 似 的 模型 ， 


”该 模型 有 一 个 反映 C++ 实体 (对 象 ) 接口 样式 的 语法 。 当 “网 格 ” 这 一 术语 指 一 个 单独 的 服务 


或 者 代表 一 个 服务 集合 时 ， 这 里 的 传感器 就 代表 输出 数据 (如 消息 ) 的 实体 ， 网 格 和 云 代 表 有 
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多 个 基于 消息 的 输入 和 输出 的 服务 集合 。 








1.4.1.3 SOA 变 命 
如 图 1-21 所 示 ， 面 向 服务 的 体系 结构 (Service-Oriented Architecture, SOA) 这 些 年 已 不 断 发 
展 。SOA 大 体 应 用 于 建立 网 格 、 云 、 云 网 格 、 网 格 云 、 云 之 云 (也 称 为 互联 云 ) 和 系统 的 系统 。 





第 1 章 分 布 式 系统 模型 和 关键 技术 27 


大 量 传感器 提供 了 数据 收集 服务 ， 在 图 中 表示 为 SS (传感器 服务 ) 。 传 感 器 可 以 是 ZigBee 设备 、 
蓝牙 设备 、WiFi 接 人 点 、 个 人 计算 机 、GPA 或 无 线 电话 等 。 原 生 数 据 通过 传 感 设 备 收集 。 所 有 
的 SS 设备 与 大 的 或 小 的 计算 机 、 各 种 各 样 的 网 格 、 数 据 库 、 计 算 云 、 存 储 云 、 过 滤 云 、 发 现 云 
BACH, MHRA (APH fs) 用 于 除去 不 想 要 的 原始 数据 ， 以 响应 Web、 网 格 、Web 服务 中 
指定 请 求 。 

> 智慧 > 决策 








图 1-21 SOA 变革 ; 云 网 格 和 网 格 ， 其 中 “SS” 指 传感器 服务 , “fs” 指 过 滤 或 转化 服务 


过 滤 服 务 的 集合 形成 了 过 滤 云 。 我 们 将 在 第 4 ~ 6 章 介绍 各 种 用 于 计算 、 存 储 、 过 滤 和 发 现 
的 云 ， 在 第 7 ~9 章 介 绍 各 种 网 格 、P2P 网 络 和 物 联网 。SOA 意 在 从 海量 的 原始 数据 项 中 寻找 或 
挑选 出 有 用 的 数据 。 处 理 这 些 数据 将 得 到 有 用 的 信息 ， 并 获得 我 们 日 常 使 用 的 知识 。 事 实 上 ， 智 
慧 或 智能 是 从 大 知识 库 中 挑选 出 的 。 最 后 ， 我 们 基于 生物 和 机 器 智 营 做 出 明智 的 决定 。 读 者 将 在 
下 面 的 章节 更 清晰 地 看 到 这 些 结构 。 

大 多 数 分 布 式 系统 需要 一 个 Web 接口 或 人 口 。 对 于 将 大 量 传感器 收集 的 原始 数据 转化 成 
有 用 的 信息 或 知识 ， 数 据 流 可 能 经 历 一 系列 的 计算 、 存 储 、 过 滤 和 发 现 云 。 最 后 ， 内 部 服务 
消息 在 人 口 聚合 ， 被 所 有 用 户 访问 。 如 5.3 节 描 述 的 两 个 人 口 一 -0OGFCE 和 HUBZero， 使 用 
Web 服务 (portlet) 和 Web 2.0 (gadget) 技术 。 许 多 分 布 式 编程 模型 也 建立 在 这 些 基 本 构造 
Z Es 

1.4.1.4 网 格 与 云 

网 格 和 云 之 间 的 界限 近年 来 变 得 越 来 越 模糊 。 对 于 Web 服务 ， 工 作 流 技术 用 于 协调 或 编排 
具有 指定 规范 的 服务 ， 其 中 这 些 规 范 用 于 定义 关键 业务 流程 模型 ， 如 两 阶段 事务 。5. 2 节 将 讨论 
工作 流 中 使 用 的 通用 方法 、BPEL Web 服务 标准 ， 以 及 几 个 重要 的 工作 流 方法 ， 如 Pegasus, 
Taverna, Kepler, Trident 和 Swift。 在 所 有 方法 中 ， 都 是 建立 一 个 服务 集合 来 一 起 解决 所 有 或 部 分 
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分 布 式 计算 问题 。 

一 般 ， 网 格 系统 使 用 静态 资源 ， 而 云 强调 弹性 资源 。 对 一 些 研究 者 来 说 ， 网 格 和 云 之 间 的 不 
同 仅 限于 基于 虚拟 化 和 自治 计算 的 动态 资源 管理 。 可 以 通过 多 个 云 建立 网 格 。 这 种 网 格 比 一 个 
单纯 的 云 能 更 好 的 工作 ， 因 为 它 能 明确 支持 协议 资源 分 配 。 从 而 可 以 建立 系统 的 系统 ， 如 云 之 
云 、 云 网 格 、 网 格 云 ， 或 互联 云 作为 一 个 基本 SOA 体系 结构 。 
1.4.2 分 布 式 操作 系统 趋势 

在 大 多 数 分 布 式 系统 中 ， 计 算 机 是 松 炮 合 的 。 因 此 ， 一 个 分 布 式 系统 自然 有 多 个 系统 镜像 。 
这 主要 是 由 于 所 有 节点 机 器 运行 独立 的 操作 系统 。 为 了 提升 资源 共享 和 节点 机 器 间 快 速 通信 ， 
最 好 有 一 个 分 布 式 的 操作 系统 一 致 、 有 效 地 管理 所 有 资源 。 这 样 的 系统 非常 像 一 个 封闭 的 系统 ， 
它 可 能 依靠 消息 传递 和 RPC 进行 内 部 节点 通信 。 应 该 指出 的 是 ， 分 布 式 操作 系统 对 于 升级 分 布 
式 应 用 的 性 能 、 效 率 和 灵活 性 是 至 关 重要 的 。 

1.4.2.1 分 布 式 操 作 系 统 

Tanenbaum ™ 提出 了 分 布 式 计算 机 系统 中 三 种 分 布 式 资源 管理 方法 。 第 一 种 方法 是 在 大 量 的 
异 构 操 作 系 统 平台 上 建立 一 个 网 络 操 作 系统 ， 这 样 一 个 操作 系统 对 用 户 提 供 最 低 的 透明 性 ， 本 
质 上 是 一 个 节点 独立 的 以 文件 共享 作为 通信 方式 的 分 布 式 文件 系统 。 第 二 种 方法 是 开发 一 个 有 
限度 的 资源 共享 中 间 件 ， 类 似 于 为 集群 系统 开发 的 MOSIX/OS ( 见 2.4.4 节 )。 第 三 种 方法 是 开 

O] 发 一 个 真正 的 分 布 式 操作 系统 以 获取 更 高 的 使 用 和 系统 透明 性 。 表 1-6 比较 了 三 种 分 布 式 操作 系 

统 的 功能 。 




















表 1-6 三 种 分 布 式 操作 系统 功能 比较 
分 布 式 操 作 Amoeba 自由 DCE as OSF/1 MOSIX (〈 希 伯 来 大 学 
系统 功能 大 学 开发 ra (开源 软件 基金 会 ) 0 用 于 Linux 集群 ) 5 
历史 和 现存 | C 实现 ， 欧洲 组 织 测试 ，| ”建立 在 UNIX、VMS、Wndows、| 197 年 开发 ,现在 称 为 MOSIX2， 
系统 状态 1995 年 发 布 5.2 版 本 08/2 等 之 上 的 用 户 扩展 用 于 HPC Linux 和 CPU 集群 
pete tint: AE 中 间 件 操作 系统 提供 一 个 | ”一 个 分 布 式 操作 系统 ， 支 持 资源 
a | AS Ma ee. ym | 运行 分 布 式 应 用 的 平台 ， 支 | 发现 、 进 程 迁移 、 运 行 时 支持 、 负 
i DA 持 RPC、 安 全 和 线程 载 均衡 、 泛 湛 控 制 和 配置 等 
操作 系统 内 | ”一 个 特殊 的 微 内 核 ， 处理 DCE 包 处 理 文件 、 时 间 、| ”MOSIX2 运行 在 Linux 2.6 E; 用 
核 、 中 间 件 和 | 低级 别 进程 、 内 存 、VO 和 通 | 目录 、 安 全 服务 、RPC 和 中 | 于 预 分 配 虚 拟 机 组 成 的 多 集群 和 云 
虚拟 化 支持 “| 信 功 能 间 件 或 用 户 空间 授权 的 折 展 
hme 
通信 机 机 | fone E mappa | RPC 支持 扫 权 通信 和 其 他 | 使 用 PVM, MPI HEHHEE, 
通信 BUR 用 户 程序 安全 服务 进程 优先 级 控制 和 排队 服务 


1.4.2.2 Amoeba 和 DCE 





DCE 是 一 个 分 布 式 计算 环境 下 的 基于 中 间 件 的 系统 。Amoeba 是 荷兰 自由 大 学 学 术 性 的 开发 。 
开源 软件 基金 会 Open Software Foundation, OSF) 已 经 推动 DCE 在 分 布 式 计算 中 的 使 用 。 然 而 ， 
Amoeba, DCE 和 MOSIX2 仍 都 是 主要 用 于 学 术 的 研究 原型 。 没 有 在 这 些 系统 基础 上 的 商业 操作 
系统 产品 。 

我 们 需要 新 的 基于 Web 的 操作 系统 来 支持 分 布 式 环境 下 资源 虚拟 化 。 这 仍 是 一 个 完全 开 
放 的 研究 领域 。 为 平衡 资源 管理 负载 ， 这 样 一 个 分 布 式 操作 系统 的 功能 必须 分 布 在 任何 可 用 
的 服务 器 上 。 从 这 一 点 来 讲 ， 传 统 的 操作 系统 只 能 运行 在 一 个 集中 式 的 平台 上 。 考 虑 到 操作 
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系统 服务 的 分 布 ， 分 布 式 操作 系统 设计 应 采用 类 似 Amoeba 的 轻 量 级 微 内 核 方 法 '“ ， 或 者 从 
现 有 的 操作 系统 上 拓展 ， 像 DCE 拓展 自 UNIX"] 。 未 来 的 发 展 趋势 是 将 用 户 从 大 部 分 资源 管理 
职责 中 解脱 出 来 。 

1.4.2.3 用 于 Linux 集群 的 MOSIX2 

MOSIX2 是 一 个 分 布 式 操作 系统 ”" ， 在 Linux 环境 中 运行 一 个 虚拟 化 层 。 这 个 虚拟 化 层 提供 
部 分 单 系统 镜像 给 用 户 应 用 。MOSIX2 支持 串 行 和 并 行 应 用 ， 以 及 Linux 节点 间 的 资源 发 现 和 进 
程 迁移 。MOSIX2 能 管理 一 个 Linux 集群 或 多 集群 网 格 。 网 格 的 灵活 管理 可 以 使 集群 拥有 者 在 多 
个 集群 拥有 者 中 共享 计算 资源 。 只 要 集群 拥有 者 之 间 可 信 ， 支 持 MOSIX 的 网 格 就 能 无 限 拓 展 ， 
MOSIX2 被 探索 用 于 管理 各 类 集群 中 的 资源 ， 包 括 Linux 集群 、GPU 集群 、 网 格 ， 以 及 使 用 虚拟 
机 的 云 。 我 们 将 在 2.4.4 HWA MOSIX 及 其 应 用 。 

1.4.2.4 透明 编程 环境 

图 1-22 展示 了 未 来 计算 平台 的 透明 计算 基础 设施 这 一 概念 。 用 户 数据 、 应 用 、 操 作 系 统 和 
硬件 被 分 成 四 个 级 别 。 数 据 是 属于 用 户 的 ， 独 立 于 应 用 。 操 作 系统 向 应 用 程序 开发 者 提供 清晰 的 
接口 、 标 准 的 编程 接口 或 系统 调用 。 在 未 来 的 云 基础 设施 中 ， 硬 件 将 使 用 标准 接口 从 操作 系统 中 
分 离 出 来 。 因 此 ， 用 户 可 以 在 硬件 平台 上 随意 选择 使 用 不 同 的 操作 系统 。 为 了 从 特定 的 应 用 程序 
中 分 离 数 据 ， 用 户 可 以 使 云 应 用 成 为 SaaS。 因 此 ， 用 户 可 以 在 不 同 的 服务 间 切 换 。 数 据 将 不 会 
受 限 于 特定 的 应 用 。 





用 户 拥有 的 数据 ， 


| 回 二 到 元 
ee 


各 种 环境 的 标准 编程 接口 


用 户 选择 不 同 操作 系统 的 标准 硬件 接口 


La 四 Ba 8 


图 1-22 在 时 间 和 空间 上 分 离 了 用 户 数据 、 应 用 、 操 作 系统 和 硬件 的 透明 计算 环境 一 一 云 
计算 的 一 个 理想 模型 


1.4.3 并 行 和 分 布 式 编程 模型 

这 一 节 ， 我们 将 介绍 4 个 具有 预期 可 扩展 性 能 和 应 用 灵活 性 的 分 布 式 计算 编程 模型 。 表 1-7 
总 结 了 三 种 模型 ， 以 及 近年 来 开发 的 一 些 软 件 工 具 集 。 正 如 我 们 将 要 讨论 的 ，MPI 是 最 流行 的 用 
于 消息 传递 系统 的 编程 模型 。 谷 歌 的 MapReduce 和 Big Table 是 用 于 有 效 使 用 互联 网 云 和 数据 中 
心 资 源 的 。 服 务 云 要 求 拓展 Hadoop、EC2 和 S3 来 促进 分 布 式 存储 系统 之 上 的 分 布 式 计算 。 在 过 
去 一 段 时 间 ， 还 提出 并 开发 了 许多 其 他 模型 。 在 第 5 章 和 第 6 章 ， 我 们 将 更 详细 地 讨论 并 行 和 分 
布 式 编程 。 
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表 1-7 并 行 和 分 布 式 编程 模型 与 工具 集 





模 型 H g 特 性 





一 个 可 供 C 或 FORTRAN 调用 的 子 程序 库 ， 用 点 对 点 的 指定 同步 和 异步 ， 在 用 户 程序 中 收 
于 编写 运行 于 分 布 式 计算 系统 的 并 行程 序 '"”” | 集 通信 请 求 和 TO 操作 ， 用 于 消息 传递 执行 


在 大 数据 集 或 Web 搜索 操作 上 用 于 大 集群 的 可 Map 函数 生成 一 个 中 间 的 键 值 对 集合 ; 
扩展 的 Web 编程 模型 Reduce 函数 用 相同 的 键 合并 所 有 中 间 值 


一 个 用 于 在 商业 应 用 中 海量 数据 集 上 编写 和 运 提供 给 用 户 商 业 集群 的 易于 访问 的 可 扩展 
行 大 型 用 户 应 用 程序 的 软件 库 的 、 经 济 的 、 有 效 的 、 可 靠 的 工具 


MPI 





MapReduce 












Hadoop 






1.4.3.1 消息 传递 接口 (MPI) 

这 是 开发 分 布 式 系统 上 运行 的 并 行程 序 和 并 发 程序 的 主要 编程 标准 。MPI 本 质 上 是 一 个 可 以 
被 C 或 FORTRAN 所 调用 的 子 程序 库 ， 用 于 编写 运行 于 分 布 式 系统 上 的 并 行程 序 。 其 思想 是 用 升 
级 的 Web 服务 和 效用 计算 应 用 来 体现 集群 、 网 格 系统 和 PP 系统 。 除 了 MPI 外 ， 低 级 别 基 元 
(如 并 行 虚 拟 机 (Parallel Virtual Machine, PVM)) 也 支持 分 布 式 编程 。MPI 和 PVM 都 是 由 Hwang 
Al Xu 描述 1。 

1.4.3.2 MapReduce 

这 是 一 个 用 于 大 数据 集 上 大 规模 集群 可 扩展 数据 处 理 的 Web 编程 模型 "| 。 这 个 模型 主要 用 
于 Web 规模 的 搜索 和 云 计算 应 用 。 用 户 指 定 Ma 函数 来 生成 一 个 中 间 的 键 值 对 的 集合 。 然 后 用 
户 请 求 Reduce 函数 来 合并 所 有 相同 键 的 值 。MapReduce 在 探索 不 同 作业 级 的 高 度 并 行 上 是 高 可 
扩展 的 。 一 个 典型 的 MapReduce 计算 过 程 能 在 成 千 上 万 台 甚 至 更 多 的 机 器 上 处 理 太 字 节 的 数据 。 
数 百 个 MapReduce 程序 可 以 同时 执行 ; 事实 上 ， 每 天 有 几 千 个 MapReduce 作业 在 谷歌 的 集群 上 
执行 。 

1.4.3.3 Hadoop Æ 

Hadoop 提供 了 一 个 软件 平台 ， 最 初 由 雅虎 开发 。 这 个 开发 包 使 用 户 能 够 在 海量 分 布 式 数据 
上 编写 和 运行 程序 。 用 户 可 以 简单 地 划分 Hadoop 来 存储 和 处 理 Web 空间 中 千 万 亿 字 节 的 数据 。 

L43] Hadoop 也 是 经 济 的 ， 因 为 它 是 MapReduce 的 一 个 开源 实现 ， 最 小 化 了 任务 数 增 长 和 海量 数据 通 
信 的 开销 。 它 是 高 效 的 ， 因 为 它 在 很 多 服务 器 节点 间 高 度 并 行 地 处 理 数据 ; 它 是 可 靠 的 ， 因 为 它 
自动 保存 多 个 数据 副本 ， 以 促使 发 生意 外 系统 故障 时 重新 配置 计算 任务 。 

1.4.3.4 开放 网 格 服务 体系 结构 (OGSA) 

网 格 基础 设施 开发 由 大 规模 分 布 式 计算 应 用 驱动 。 这 些 应 用 依靠 高 度 的 资源 和 数据 共享 。 
表 1-8 介绍 了 OGSA 作为 一 个 网 格 服务 公共 使 用 的 通用 标准 。Genesis Il 是 OGSA 的 一 个 实现 。 关 
键 特性 包括 一 个 分 布 式 的 执行 环境 、 使 用 一 个 本 地 证 书 颁发 机 构 (CA) 的 公 钥 机 制 (Public Key 
Infrastructure, PKI) 服务 、 信 任 管理 和 网 格 计算 中 的 安全 策略 。 


表 1-8 用 于 科学 和 工程 应 用 的 网 格 标 准 和 工具 包 "*] 

































关键 特性 和 安全 基础 设施 

OGSA 标准 开放 网 格 服务 体系 结构 ; 为 公共 使 用 支持 异 构 分 布 式 环境 、 桥 接 CA、 多 信任 媒介 、 动 

提供 通用 网 格 服务 标准 态 策略 、 多 安全 机 制 等 
Globus 工具 包 资源 分 配 、Globus 安全 基础 设施 通过 PKI，Kerberos、SSL、 代 理 、 委 托 和 GSS API 

(GSI) 和 通用 安全 服务 API 多 点 登录 授权 ， 以 保证 信息 完整 性 和 保密 性 

. 使 用 简单 CA、 授 权 访问 、 网 格 服务 (ReGS), ¥ 

IBM 网 格 工具 箱 AIX 和 Tinux 风格 建 立 在 Globus 工具 | 持 用 于 Java 的 网 格 应 用 (CAF4J) ， 用 于 安全 更 新 的 

包 之 上 ， 自 动 计 算 ， 备 份 服务 . , 

IntraGrid 中 的 GridMap 
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1.4.3.5 Globus 工具 包 和 扩展 

Globus 是 一 个 由 美国 阿 贡 国家 实验 室 和 USC 信息 科学 研究 院 10 年 前 联合 开发 的 中 间 件 库 。 
这 个 库 实现 了 一 些 0GSA 标准 ， 包 括 网 格 环境 中 的 资源 发 现 、 分 配 和 安全 强制 。Globus 包 支 持 用 
PKI 认证 多 点 相互 授权 。 当 前 Globus 版 本 GT 4 在 2008 年 就 已 经 开始 使 用 。 男 外 ，IBM 已 经 扩展 
Globus 用 于 商业 应 用 。 我 们 将 在 第 7 章 更 详细 地 讨论 Globus 和 其 他 网 格 计算 中 间 件 。 

1.5 性能、 安全 和 节能 

这 一 节 ， 我 们 将 结合 经 验 法 则 讨论 构建 海量 分 布 式 计算 系统 的 基本 设计 原则 。 内 容 包括 集 
群 、 网 格 、P2P 网 络 和 互联 网 云 中 的 可 扩展 性 、 可 用 性 、 编 程 模 型 和 安全 问题 。 

1.5.1 性 能 度量 和 可 扩展 性 分 析 

性 能 度量 是 测量 分 布 式 系统 所 必需 的 。 在 这 一 节 ， 首 先 我 们 将 讨论 不 同 维度 的 可 扩展 性 和 
性 能 法 则 。 然 后 我 们 将 检查 系统 可 扩展 性 与 操作 系统 镜像 和 其 他 限制 性 因素 的 关系 。 

1.5.1.1 性 能 度量 

我 们 在 1. 3. 1 节 以 MIPS 为 单位 度量 CPU 速度 ， 以 Mbps 为 单位 度量 网 络 带 宽 来 估 测 处 理 器 
和 和 网络 性 能 。 在 一 个 分 布 式 系统 中 ,性 能 与 许多 因素 相关 。 系 统 吞 吐 量 经 常用 MIPS, Tflops (每 
fy T $B IS BAR) 或 TPS (Transactions Per Second， 每 秒 事务 数 ) 测量 。 其 他 度量 包括 作业 响 
应 时 间 和 网 络 延迟 。 一 个 比较 好 的 互连网 络 是 低 延 迟 和 高 带宽 的 。 系 统 开 销 通常 归 因 于 操作 系 
统 启动 时 间 、 编 译 时 间 、L/O 数据 速率 和 运行 时 支持 系统 消耗 。 其 他 性 能 相关 度量 包括 互联 网 和 
Web 服务 的 QoS、 系 统 可 用 性 和 可 靠 性 ， 以 及 系统 抵抗 网 络 攻击 的 安全 弹性 。 

15.1.2 可 扩展 性 维度 

用 户 希 望 拥有 一 个 能 获得 可 扩展 性 能 的 分 布 式 系统 。 任 何 系统 资源 升级 都 应 该 后 向 兼容 已 
有 的 硬件 和 软件 资源 。 过 度 设计 是 不 合算 的 。 系 统 扩展 由 于 许多 实际 因素 可 能 带 来 资源 的 增加 
或 减少 。 下 面 的 可 扩展 性 维度 都 是 用 来 刻画 并 行 和 分 布 式 系统 的 : 

。 规模 可 扩展 性 : 指 通过 增加 机 器 数量 来 获取 更 高 的 性 能 和 更 多 的 功能 。“ 规 模 ” 指 增加 处 
理 器 、 缓 存 、 内 存 、 存 储 器 或 IO 通道 。 判 断 规模 可 扩展 性 的 最 明显 方式 是 简单 地 计算 
处 理 器 安装 数量 。 例 如 ，IBM S2 在 1997 年 由 512 个 处 理 器 扩展 组 成 ， 但 是 在 2008 年 ， 
IBM BlueGene/L 系统 由 65 000 个 处 理 器 扩展 而 成 。 
软件 可 扩展 性 : 指 升级 操作 系统 或 编译 器 ， 增 加 数学 和 工程 库 ， 移 植 新 的 应 用 软件 ， 安 
装 更 多 的 用 户 友 好 的 编程 环境 。 一 些 软件 升级 可 能 不 适合 大 型 系统 配置 。 新 软件 在 更 大 
系统 上 的 测试 和 微调 不 是 一 个 简单 的 工作 。 

应 用 可 扩展 性 : 指 问题 的 规模 扩展 与 机 器 的 大 小 扩展 相 匹 配 。 问 题 的 规模 影响 数据 集 的 
大 小 或 负载 的 增长 。 用 户 可 以 通过 放大 问题 的 规模 ， 而 不 是 增加 机 器 的 大 小 ,来 提高 系 
统 效率 或 成 本 效益 。 

技术 可 扩展 性 : 指 系统 可 以 适应 构建 技术 的 变化 ， 如 3.1 节 中 讨论 的 组 件 和 网 络 技术 等 。 
何 时 扩展 新 技术 的 系统 设计 ， 必 须 考 虑 三 个 方面 : 时间、 空间、 蜡 构 性 。(1) 时 间 指 生 
成 可 扩展 性 。 当 改变 到 新 一 代 处 理 器 时 ， 我 们 必须 考虑 主板 、 电 源 、 封 装 和 冷却 的 影响 
等 。 根 据 以 往 的 经 验 ， 大 部 分 系统 每 三 至 五 年 就 要 升级 自己 的 处 理 器 。(2) 空间 是 与 封 
装 和 能 量 有 关 的 问题 。 技 术 的 可 扩展 性 要 求 供 应 商 之 间 的 协调 和 可 移植 性 。(3) PE 
是 指使 用 不 同 厂商 的 硬件 组 件 或 软件 包 。 异 构 性 可 能 限制 可 扩展 性 。 

1.5.1.3 可 扩展 性 和 系统 镜像 数 

在 图 1-23 中 ， 根 据 2010 年 部 署 的 多 重 分 布 式 操作 系统 镜像 估 测 了 其 可 扩展 性 能 。 可 扩展 的 
性 能 意味 着 系统 可 以 通过 增加 更 多 的 处 理 器 或 服务 器 、 扩 大 物理 节点 的 内 存 大 小 、 扩 展 磁盘 容 
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量 或 增加 更 多 的 VO 通道 实现 更 快 的 速度 。 操 作 系 统 镜像 数量 由 集群 、 网 格 、P2P 网 络 或 云 中 被 
观测 到 的 独立 操作 系统 镜像 数 得 出 。SMP (Symmetric Multiprocessor， 对 称 多 处 理 器 ) 和 NUMA 
(Nonuniform Memory Access， 非 统一 内 存 访 问 ) 也 被 列 人 比较 中 。SMP 服务 器 有 一 个 单 系统 镜 
像 ， 可 能 是 一 个 大 型 集群 中 的 单个 节点 。 根 据 2010 年 的 标准 ， 最 大 的 共享 内 存 SMP 节点 拥有 有 
限 的 几 百 个 处 理 器 。SMP 系统 的 可 扩展 性 主要 是 受 所 使 用 的 封装 和 系统 互 连 的 限制 。 


4 ”可 扩展 性 
107 | ( 系统 中 处 理 
op 党 或 核心 数量 ) 
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系统 中 的 多 重 操作 系统 镜像 


图 1-23 基于 2010 年 技术 的 多 重 操作 系统 镜像 与 系统 可 扩展 性 


NUMA 机 器 通常 由 分 布 式 、 共 享 内 存 的 SMP 节点 构成 。NUMA 机 器 可 以 运行 多 个 操作 系统 ， 
并 可 以 使 用 MPI 库 扩展 到 几 千 个 处 理 器 通信 。 人 例如， 一 个 NUMA 机 可 能 有 2 048 个 处 理 器 运行 
32 个 SMP 操作 系统 ， 即 32 个 操作 系统 镜像 运行 在 2 048 个 处 理 器 的 NUMA 系统 上 。 集 群 节点 可 
以 是 SMP 服务 器 或 高 端 机 器 松 看 合 在 一 起 。 因 此 ， 和 集群 可 扩展 性 远 远 高 于 NUMA 机 。 集 群 中 操 
作 系 统 镜像 数 是 基于 并 发 集群 节点 数 的 。 云 可 以 是 一 个 虚拟 的 集群 。 截 至 2010 年 ， 最 大 的 云 能 
够 扩展 到 几 千 个 虚拟 机 。 

请 记 住 ， 许 多 集群 节点 是 SMP 或 多 核 服 务 器 ， 处 理 器 或 核心 总 数 在 集群 系统 中 比 集群 上 运 
行 的 操作 系统 镜像 大 1 或 2 个 数量 级 。 网 格 节 点 可 能 是 一 个 服务 器 集群 、 一 台 主 机 、 一 台 超 级 计 
算 机 或 MPP。 因 此 ， 大 型 网 格 结构 中 的 操作 系统 镜像 数 可 能 比 网 格 中 的 处 理 絮 数 少 成 百 或 上 干 
个 。P2P 网 络 容易 扩展 到 数 百 万 独立 对 等 节点 ， 基 本 上 是 台式 机 。P2P 性 能 取决 于 公共 网 络 的 
QoS。 低 速 的 P2P 网 络 、 互 联网 云 和 计算 机 集群 应 在 相同 的 网 络 水 平 。 

1.5.1.4 Amdahl 定律 

考虑 单 处 理 器 执行 给 定 程 序 共 需 了 分 钟 时 间 。 现 在 我 们 假定 该 方案 已 并 行 或 划分 到 集群 的 
许多 处 理 节点 上 执行 。 假 设 必须 串 行 执行 的 代码 部 分 为 a, RA PLA. Kik, (O -a) 的 代 
码 可 以 由 nt 个 处 理 器 并 行 执行 。 总 执行 时 间 是 aT + (1 - a) 和 m， 其 中 第 一 项 是 单 处 理 器 上 串 行 执 


“ 行 的 时 间 ， 第 二 项 是 个 处 理 节点 并 行 执 行 的 时 间 。 


这 里 忽略 了 所 有 的 系统 或 通信 开销 。 下 面 加 速 分 析 中 也 没有 包括 LO 时 间或 异常 处 理 时 间 。 
Amdahl 定律 指出 ，n 处 理 器 系统 相对 单一 处 理 器 的 加 速 因子 表示 如 下 : 
wk = S= T/[aT + (1 -a)T/n] =1/[aæ + (1 -a)/n] (1-1) 
RA 4ST o 降 到 零 或 代码 完全 并 行 时 ， 才 能 达到 最 大 加 速 比 wz。 由 于 集群 变 得 足够 
大 ， 即 "一 co ,5 接近 1/a, 令 人 惊讶 的 是 ， 在 加 速 与 约束 的 上 限 ， 这 个 上 限 是 独立 于 集群 大 小 n 
的 。 串 行 瓶颈 是 不 能 并 行 化 的 代码 部 分 。 例 如 ， 如 果 a =0.25 或 者 1 -a=0.75， 即 使 使 用 数 百 
个 处 理 器 ， 最 大 加 速 比 也 为 4。Amdahl 定律 告诉 我 们 ， 应 该 使 串 行 瓶颈 尽 可 能 小 。 在 这 种 情况 
下 ， 仅 增加 集群 的 规模 可 能 不 会 得 到 好 的 加 速 。 
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1.5.1.5 固定 负载 问题 
在 Amdahl 定律 中 ， 假 定 串 行 和 并 行 执 行 固定 问题 规模 或 数据 集 的 程序 需要 等 量 负 载 。 这 被 
Hwang FI Xu 称 为 固定 负载 加 速 比 。n 个 处 理 器 执行 一 个 固定 负载 ， 并 行 处 理 的 系统 效率 定义 如 下 : 
E = S/n = 1/[an+1-a] (1-2) 
系统 效率 通常 非常 低 ， 尤 其 是 当 集 群 规模 非常 大 时 。 在 n=256 个 节点 的 集群 上 执行 上 述 程 
Fr, 显然 ， 极 低 效率 EE=1/[0.25 x256 +0.75] =1.5%。 这 是 因为 只 有 几 个 处 理 器 (比方 说 ，4) 
在 工作 ,而 大 多 数 节 点 空转 。 
1.5.1.6 Gustafson 定律 
当 使 用 一 个 大 规模 集群 时 ， 为 了 实现 更 高 的 效率 ,我 们 必须 考虑 扩大 问题 规模 来 匹配 集群 
的 能 力 。 这 促使 John Gustafson (1988) 提出 了 下 面 的 加 速 比 定律 ， 简 称 为 扩展 负载 加 速 比 "4 。 
设 下 是 给 定 程序 的 负载 。 当 使 用 n 处 理 器 系统 时 ， 用 户 将 负载 扩展 为 W' =0W+(1 - a) W, 
请 注意 ， 只 有 并 行 部 分 负载 是 在 第 二 项 中 扩展 n 信 。 这 个 扩展 负载 W' 基 本 上 是 单个 处 理 器 上 的 
串 行 执行 时 间 。 并 行 扩展 负载 W' 在 n 个 处 理 器 上 的 执行 时 间 由 扩展 负载 加 速 比 定义 如 下 : 
S'’=W'/W = [aW + (1-a) nW] /W = at (l-a)n (1-3) 
这 个 加 速 比 称 为 Gustafson E. TE EET AT EW, BY A oP A RE 
达 式 : 
E' = S'/n = a/n +(1- a) (1-4) 
对 于 扩展 负载 ， 使 用 256 个 节点 的 集群 可 以 使 前 面 程序 使 用 效率 提高 为 E' = 0. 25/256 +0. 75 = 
0.751。 在 不 同 的 负载 条 件 下 ， 应 该 灵活 选用 Amdahl 定律 和 Gustafson 定律 。 对 于 固定 负载 ， 应 
采用 Amdahl 定律 。 为 了 解决 扩展 规模 的 问题 ， 应 采用 Gustafson 定律 。 
1.5.2 容错 和 系统 可 用 性 
除了 性 能 外 ， 系 统 可 用 性 和 应 用 的 灵活 性 是 分 布 式 计算 系统 另外 两 个 重要 的 设计 目标 。 
系统 可 用 性 
HA (高 可 用 性 ) 是 所 有 集群、 网 格 、P2P 网 络 和 云 系统 所 期 望 的 。 如 果 系 统 有 一 个 长 的 平 
均 故 障 时 间 (Mean Time To Failure, MTTF) 和 短 的 平均 修复 时 间 (Mean Time To Repair, 
MTTR ) ， 那 么 这 个 系统 是 高 度 可 用 的 。 系 统 可 用 性 形式 化 定义 如 下 : 
系统 可 用 性 = MTTF/(MTTF + MTTR) (1-5) 
影响 系统 可 用 性 的 因素 有 很 多 。 所 有 的 硬件 、 软 件 和 网 络 组 件 都 可 能 会 出 错 。 影 响 整个 系统 
运行 的 故障 称 为 单 点 故障 。 经 验 法 则 是 一 个 可 靠 的 计算 系统 设计 应 没有 单 点 故障 。 增 加 硬件 宛 
余 ， 提 高 元 件 的 可 靠 性 和 设计 可 测 性 ,将 有 助 于 提高 系统 的 可 用 性 和 可 靠 性 。 在 图 1-24 中 ， 预 
测 了 通过 增加 处 理 器 核心 数 来 扩大 系统 规模 对 系统 可 用 性 的 影响 。 


局 
(100%) 个 


系统 可 用 人 性 











> 
小 系统 规模 〈 # 处 理 器 核 数 ) 大 (105) 
图 1-24 通过 2010 年 常规 配置 的 系统 规模 估计 系统 可 用 性 
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在 一 般 情 况 下 ， 随 着 分 布 式 系统 规模 的 增加 ， 系 统 可 用 性 会 因 更 高 的 故障 几率 和 隔离 故障 
的 难度 而 降低 。SMP 和 MPP 在 单 操作 系统 下 的 集中 式 资 源 是 非常 脆弱 的 。 由 于 使 用 多 操作 系统 ， 
NUMA 机 器 可 用 性 大 大 提高 。 大 多 数 集群 是 通过 故障 转移 功能 来 获得 高 可 用 性 。 与 此 同时 ， 私 有 
云朵 虚拟 化 数据 中 心 创造 出 来 ; 因此 ， 云 有 一 个 类 似 主 机 集群 的 可 用 性 预测 。 网 格 作为 层次 化 的 
集群 的 集群 是 可 视 化 的 。 网 格 因 故 障 隔 离 而 有 更 高 的 可 用 性 。 因 此 ， 集 群 、 云 和 网 格 随 着 系统 规 
模 的 增加 ， 可 用 性 降低 。 一 个 P2P 文件 共享 网 络 具有 最 高 的 客户 机 聚合 。 然 而 ， 它 独立 地 运行 ， 
可 用 性 很 低 ， 其 至 很 多 对 等 节点 退出 或 同时 失败 。 
1.5.3 网 络 威胁 与 数据 完整 性 

要 在 当今 的 数字 时 代 使 用 集群 、 网 格 、P2P 网 络 和 云 ， 就 要 对 其 安全 和 版 权 进 行 保护 。 本 节 
将 介绍 分 布 式 或 云 计 算 系 统 中 的 系统 弱点 、 网 络 威胁 、 防 范 措施 和 版 权 保护 。 

15.3.1 系统 与 网 络 的 威胁 

网 络 病毒 的 广泛 传播 影响 到 许多 用 户 。 这 些 病毒 通过 破坏 路 由 器 和 服务 器 进行 传播 ， 使 商 
业 、 政 府 和 服务 蒙受 数 十 亿美 元 的 损失 。 图 1-25 归纳 了 各 种 病毒 袭击 方式 及 其 可 能 对 用 户 造成 
的 影响 。 如 图 1-25 所 示 ， 信 息 泄 露 对 保密 性 造成 损失 。 用 户 变更 、 木 马 和 欺诈 服务 会 破坏 数据 
完整 性 。 拒 绝 服务 (Denial of Service, DoS) 会 破坏 系统 运行 和 互联 网 连接 。 


保密 性 损失 完整 性 损失 可 用 性 损失 不 正当 的 认证 
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图 1-25 对 计算 机 的 各 种 系统 袭击 和 网 络 威胁 及 造成 的 4 种 损失 


缺少 认证 或 授权 会 导致 袭击 者 非法 使 用 计算 资源 。 开 放 式 资源 〈 如 数据 中 心 、P2P 网 络 ， 以 
及 网 格 和 云 基础 设施 ) 将 会 成 为 下 一 个 袭击 目标 。 所 以 用 户 需 要 保护 集群 、 网 格 、 云 和 P2P A 
统 。 否 则 ， 用 户 不 应 该 使 用 或 信任 它们 进行 外 包工 作 。 系 统 遭 到 恶意 人 侵 可 能 会 破坏 重要 的 主 
机 ， 以 及 网 络 和 存储 资源 。 路 由 、 网 关 及 分 布 式 主机 出 现 网 络 异 常会 阻碍 这 些 公共 资源 计算 服务 
的 认可 度 。 

15.3.2 安全 责任 

保密 性 、 完 整 性 和 可 用 性 是 多 数 网 络 服务 提供 商 和 云 用 户 经 常 考虑 到 的 安全 需求 。 提 供 商 
对 云 用 户 安全 控制 的 责任 按 SaaS, PaaS 和 Iaas 的 顺序 逐渐 减 小 。 总 之 ，SaaS 模式 依赖 于 云 提供 
商 来 保证 所 有 安全 功能 的 运行 。 另 一 种 极端 情况 则 是 IaaS 模式 ， 要 求 用 户 承 担 几乎 所 有 的 安全 
运行 ， 而 将 可 用 性 交 由 提供 商 。PaaS 模式 依靠 提供 商 维护 数据 的 完整 性 和 可 用 性 ,但 保密 性 和 
隐私 控制 由 用 户 承 担 。 

1.5.3.3 版 权 保 护 

FREE P2P 网 络 领域 内 侵犯 知识 产权 的 主要 来 源 。 付 费用 户 ( 共 谋 者 ) 会 与 非 付费 用 
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E (S194) 非法 共享 内 容 受 版 权 保 护 的 文件 。 在 线 肌 窃 已 经 妨碍 了 以 商业 内 容 传输 为 目的 的 
开放 式 P2P 网 络 的 使 用 。 开 发 一 种 主动 内 容 中 毒 机 制 可 以 阻止 共 谋 者 和 婚 鹤 者 在 P2P 文件 共享 
过 程 中 侵犯 版 权 。 通 过 基于 签名 的 身份 识别 和 时 间 惟 令 牌 ， 樟 穿 者 会 被 及 时 发 现 。 这 一 机 制 会 阻 
IFRAME, MIRE PP 用户。 第 4 章 和 第 7 章 将 讨论 网 格 和 云 的 安全 、P2P 
信誉 系统 ， 以 及 版 权 保 护 。 

1.5.3.4 系统 防御 技术 

在 之 前 已 经 出 现 过 三 代 网 络 防御 技术 。 第 一 代 技 术 设 计 了 阻止 或 避免 人 侵 的 工具 ， 这 些 
工具 通常 将 自己 显示 为 访问 控制 令 牌 、 密 文系 统 等 。 但 入 侵 者 仍然 可 以 渗入 安全 系统 ， 因 为 
在 安全 调度 进程 中 常 有 漏洞 。 第 二 代 技 术 可 以 很 快 发 现 人 侵 并 进行 修补 。 这 些 技术 包括 防火 
墙 、 人 侵 检测 系统 (IDSes)、PKI 服务 、 信 誉 系统 等 。 第 三 代 技 术 对 人 侵 能 做 出 更 多 智能 
回应 。 

1.5.3.5 数据 保护 基础 设施 

安全 基础 设施 是 保护 Web 服务 和 云 服务 的 必要 条 件 。 在 用 户 层 ， 用 户 需 要 履行 信任 协议 和 
对 所 有 用 户 的 信誉 集合 。 在 应 用 终端 ， 我 们 需要 建立 安全 预警 以 晕 制 蠕虫 ， 检 测 病毒 、 颖 虫 的 人 
侵 ， 以 及 分 布 式 拒绝 服务 (DDS) 袭击 。 我 们 还 需要 阻止 在 线 梯 穿 和 数字 内 容 的 版 权 侵 犯 。 在 
第 4 章 ， 我 们 将 研究 信誉 系统 对 云 系统 和 数据 中 心 的 保护 。 根 据 三 种 云 服 务 模式 ， 安 全 责任 被 分 
配给 云 提 供 商 和 用 户 。 提 供 商 完全 负责 平台 的 可 用 性 。IaaS 用 户 更 多 地 负责 保密 性 ，Iaas 提供 商 
更 多 地 负责 数据 完整 性 。 在 PaaS 和 SaaS 服务 中 ， 提 供 商 和 用 户 会 平等 地 承担 保护 数据 完整 性 和 
保密 性 的 责任 。 

1.5.4 分 布 式 计算 中 的 节能 . 

传统 并 行 和 分 布 式 计 算 系 统 的 首要 目标 是 高 性 能 和 高 吞吐 量 ， 同 时 还 需要 考虑 一 些 性 能 可 
靠 性 (如 容错 性 和 安全 性 ) 。 然 而 这 些 系统 最 近 面 临 新 的 挑战 ， 包 括 节 能 、 负 载 和 资源 外 包 。 这 
些 新 兴 问 题 的 重要 性 不 仅 在 于 它们 本 身 ， 而 且 一 般 还 关系 到 大 型 计算 系统 的 稳定 性 。 本 他 将 探 
讨 服务 器 和 HPC 系统 中 的 能 源 消 耗 问 题 ， 这 一 问题 也 称 为 “分 布 式 电能 管理 ”(Distributed Power 
Management, DPM) 。 

对 数据 中 心 的 保护 需要 集成 的 解决 方案 。 并 行 和 分 布 式 计算 系统 中 的 能 源 消 耗 引 起 了 资金 、 
环境 和 系统 性 能 方面 的 多 种 问题 。 例 如 ， 地 球 模拟 器 和 每 秒 千 万 亿 次 浮 点 运算 是 以 12 兆 瓦 和 
100 兆 瓦 为 能 源 峰 值 的 系统 。 如 果 按 每 兆 瓦 100 美元 计算 ， 那 么 它们 在 峰值 期 间 运行 的 能 源 成 本 
是 每 小 时 1200 美元 和 10 000 美元 ; 这 超出 了 许多 (潜在 的 ) 系统 运营 者 的 预算 承受 范围 。 除 了 
能 源 成 本 外 ,冷却 是 另 一 个 不 得 不 提 的 问题 ， 因 为 高 温 会 对 电子 元 件 造成 负面 影响 。 电 路 温度 的 
上 升 不 但 使 线路 超出 正常 范围 ， 还 缩短 了 元 件 的 寿命 。 

1.5.4.1 空转 服务 器 的 能 源 消耗 

若 要 运行 一 个 数据 中 心 ， 公 司 不 得 不 花费 大 量 金钱 来 购买 硬件 、 软 件 、 运 营 支 持 ， 以 及 每 年 
的 能 源 。 因 此 ， 公 司 应 该 仔细 考虑 他 们 所 安装 的 数据 中 心 〈 更 确切 地 说 是 调配 的 资源 量 ) 是 否 
在 一 个 合理 的 水 平 上 ， 特 别 是 在 效用 方面 。 据 估计 ， 以 前 在 公司 里 平均 每 天 有 六 分 之 一 (15%) 
的 全 天 候 服务 器 在 运行 时 并 没有 被 利用 〈 即 处 于 闲置 状态 ) 。 这 说 明 在 全 世界 4 400 万 台 服 务 器 
中 ， 有 470 万 台 服 务 器 没有 做 任何 有 用 的 工作 。 

关闭 这 些 服务 器 将 节省 下 一 大 笔 钱 一 一 全 球 仅 能 源 成 本 就 有 38 亿美 元 ， 运行 闲 置 服务 器 的 
全 部 成 本 是 247 亿美 元 ， 这 是 IE 公司 与 节能 同盟 (Alliance to Save Energy, ASE) 合作 的 调查 结 
果 。 这 些 被 浪费 的 能 源 相 当 于 每 年 排放 1 180 万 吨 二 氧化 碳 ， 相 当 于 210 万 辆 小 汽车 排放 的 一 氧 
化 碳 的 污染 量 。 在 美国 ， 这 相当 于 317 万 吨 二 氧化 碳 或 者 580 678 辆 小 汽车 的 排放 量 。 因 此 ，IT 
部 门 的 第 一 步 是 分 析 他 们 的 服务 器 ， 以 找 出 闲置 的 和 没有 被 充分 利用 的 服务 器 。 
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1.5.4.2 运行 服务 器 的 节能 
除了 节省 未 使 用 和 未 充分 利用 的 服务 器 的 能 源 外 ， 还 需要 用 合适 的 技术 减少 分 布 式 系统 中 
运行 服务 器 的 能 源 消耗 ， 同 时 要 把 对 它们 性 能 的 影响 降 到 最 低 。 分 布 式 计 算 平 台 的 能 源 管理 问 
题 可 以 分 为 4 层 〈 见 图 1-26) : 应 用 层 、 中 间 件 层 、 资 源 层 和 网 络 层 。 
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图 1-26 分 布 式 运 算 系 统 的 4 个 操作 层 
注 ， 由 悉尼 大 学 的 Zomaya、Rivandi 和 Lee 提供 [33] 。 


15.4.3 应 用 层 
直到 现在 ， 大 部 分 科学 、 商 业 、 工 程 和 金融 领域 的 用 户 应 用 都 倾向 于 提升 系统 的 速度 或 质 
量 。 通 过 引入 能 量 感知 应 用 ， 在 不 损害 性 能 的 前 提 下 设计 复杂 的 多 层次 、 多 领域 能 源 管理 应 用 成 

为 挑战 。 面 向 这 个 目标 的 第 一 步 是 要 探索 出 性 能 和 能 源 消 耗 之 间 的 关系 。 事 实 上 ， 应 用 程序 的 能 
源 消 耗 很 大 程度 上 取决 于 需要 执行 的 应 用 和 存储 单元 (或 内 存 ) 的 事务 数量 。 这 两 个 因素 (it 
算 和 存储 ) 是 相关 的 ， 影 响 着 完成 时 间 。 

1.5.4.4 中 间 件 层 

中 间 件 层 充当 了 应 用 层 和 资源 层 之 间 的 桥梁 。 这 层 提 供 了 资源 代理 ， 通 信服 务 、 任 务 分 析 
器 、 任 务 调度 器 、 安 全 访问 、 可 靠 性 控制 和 信息 服务 能 力 。 它 也 负责 采用 高 效 节 能 技术 ,特别 是 
任务 调度 。 直 到 最 近 ， 调 度 旨 在 最 小 化 完工 时 间 ， 即 一 组 任务 的 执行 时 间 。 分 布 式 计算 系统 需要 
一 种 新 的 代价 函数 涵盖 完工 时 间 和 能 源 消耗 。 

1.5.4.5 资源 层 

资源 层 由 包括 计算 节点 和 存储 单元 的 广泛 资源 组 成 。 这 层 通常 与 硬件 设备 和 操作 系统 进行 
交互 。 因 此 ， 它 负责 控制 分 布 式 计算 系统 中 的 所 有 分 布 式 资源 。 最 近 ， 制 定 了 一 些 可 以 更 高 效 管 
理 硬件 和 操作 系统 电源 的 机 制 。 它 们 中 大 多 数 是 硬件 方法 ,尤其 是 针对 处 理 器 的 。 
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动态 电能 管理 (Dynamic Power Management, DPM) 和 动态 电压 频率 缩放 (Dynamic Voltage- 
Frequency Scaling, DVFS) 是 两 种 纳入 计算 机 硬件 系统 中 的 新 方法 1。 在 DPM 中 ， 硬 件 设备 
(如 CPU) 可 以 从 空闲 模式 切换 到 一 个 或 多 个 低 电能 模式 。 在 DVFS 技术 中 ， 节 能 是 基于 CMOS 
功 耗 与 频率 和 供应 电压 平方 有 直接 关系 这 一 事实 。 执 行 时 间 和 功 耗 是 通过 在 不 同 频率 和 电压 之 
EAT Re AO” 。 

15.4.6 WBE 

路 由 、 传 输 数 据 包 和 确保 资源 层 的 网 络 服务 是 分 布 式 计算 系统 中 网 络 层 的 主要 责任 。 同 样 ， 
构建 节能 网 络 的 主要 挑战 是 决定 如 何 来 度量 、 预 测 和 建立 一 个 能 耗 与 性 能 之 间 的 平衡 。 节 能 网 
络 设计 的 两 个 主要 挑战 是 ; 

。 模型 应 该 全 面 地 表达 网 络 ， 比 如 ， 应 充分 考虑 时 间 、 空 间 和 能 源 之 间 的 相互 作用 。 

。 需要 探索 新 的 节能 路 由 算法 。 需 要 新 的 节能 协议 对 抗 网 络 攻 击 。 

由 于 信息 资源 推动 经 济 和 社会 发 展 ， 数 据 中 心 作 为 信息 存储 和 处 理 以 及 服务 提供 所 在 ， 正 
变 得 越 来 越 重要 。 数 据 中 心 已 成 为 核心 基础 设施 ， 就 像 电 网 和 运输 系统 。 传 统 的 数据 中 心 正 遭受 
着 高 建设 和 运营 成 本 、 复 杂 的 资源 管理 、 低 可 用 性 、 低 安全 性 和 低 可 靠 性 ， 以 及 巨大 的 能 源 消 
耗 。 在 下 一 代数 据 中 心 设计 上 采用 新 技术 是 非常 必要 的 。 这 将 在 第 4 章 进行 详细 讨论 。 

1.5.4.7 DVFS 节能 方法 

DVFS 方法 能 够 利用 因 任 务 交 互 而 招致 的 松弛 时 间 (空闲 时 间 )。 具 体 来 说 ， 利 用 与 任务 相 
关 的 松弛 时 间 以 一 个 低 电 压 、 频 率 执 和 人 Ta CMOS 电路 中 能 耗 和 电压 、 频 率 之 间 的 关系 如 下 : 

= Caf t 
pox CELAH (1-6) 

Ho, Cy. K Alo, 分 别 代表 电压 、 电 路 交换 能 力 、 技术 相关 因素 和 国 值 电压 ， 参数 上 是 任务 在 
时 钟 频率 f 下 的 执行 时 间 。 通 过 降低 电压 和 频率 ,设备 能 耗 也 能 够 减少 。 

例 1.2 分 布 式 电源 管理 中 的 节能 

图 1-27 所 示 为 DVFS 方法 。 想 法 就 是 在 负载 松弛 时 间 降 低频 率 和 电压 。 低 功率 模式 之 间 的 
过 渡 延 迟 非常 小 。 因 此 ， 可 以 通过 在 运行 模式 之 间 进 行 切换 来 节约 能 源 。 在 低 功 耗 模式 之 间 切 换 
会 影响 性 能 。 存 储 单元 必须 和 计算 节点 交互 来 平衡 功 耗 。 根 据 Ge、Feng、Cameron'*1， 存 储 设备 
约 占 数据 中 心 能 源 消耗 总 量 的 27% 。 由 于 存储 需求 年 增长 60% ， 这 个 数字 迅速 增加 ， 问题 变 得 
更 加 恶化 。 E 


频率 (MHz) 
3 


12345 67 1234 5 67 
时 间 ( ms ) 时 间 (ms ) 


图 1-27 通过 在 松弛 时 间 降 低频 率 或 电压 ，DVFS 技术 (A) 节约 的 能 量 与 传统 方式 (A) 的 比较 


1.6 参考 文献 和 习题 


在 过 去 的 40 年 中 ， 并 行 处 理 和 分 布 式 计算 已 经 成 为 研究 和 开发 的 热门 话题 。 并 行 计算 的 早 
期 工作 可 以 在 一 些 经 典 书籍 中 找到 "22 。 最 近 的 分 布 式 系 统 研究 工作 可 以 在 文献 [8，13 
20，22] 中 找到 。 集 群 计算 在 文献 [2，10，28，38]j] 有 涉及 ， 网 格 计 算 在 文献 [6，18，42，47， 
51] 中 。 文 献 [6，34 ，46] 介 绍 了 P2P 网 络 。 多 核 CPU MRE GPU 处 理 器 在 文献 [15，32 ，36] 中 
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进行 了 讨论 。Top500 超级 计算 机 的 相关 资料 可 以 在 文献 [50] 中 找到 。 

文献 [4，19，26] 是 对 数据 中 心 的 介绍 ,文献 [24，26] 介 绍 了 最 新 的 计算 机 体系 结构 。 
文献 [1, 9，11，18，29，30，39，,，44] 是 云 计算 相关 研究 。 由 Buyya、Broberg 和 Goscinski 编 
辑 成 卷 的 有 关 云 计算 研究 [11 ] 是 云 计算 研究 的 一 个 很 好 的 资源 。Chou HBO 强调 云 服务 的 商 
业 模 式 。 文 献 [40 ~ 44] 介 绍 了 虚拟 化 技术 。Bell、Gray 和 Szalay, Foster A"), WE 
Hey” 的 文章 关注 有 关 数 据 密集 型 网 格 和 云 计 算 的 关键 问题 。 大 规模 数据 并 行 和 编程 包括 在 
文献 [14，32] 中 。 

分 布 式 算法 和 MPI 编程 的 研究 在 文献 [3，12，15, 22，28] 中 有 介绍 。 分 布 式 操作 系统 和 软 
件 工具 在 文献 [3，7，13，46] 中 涉及 。 节 能 和 能 量 管 理 在 文献 [21，31，52] 中 被 研究 。 文 献 
[45，48] 是 对 物 联 网 的 研究 。Hwang 和 Li THEI 为 应 对 云 安全 和 数据 保护 问题 提出 了 建议 。 
在 随后 的 章节 ， 将 提供 其 他 参考 文献 。 下 面 的 列表 中 重点 列 出 涉及 并 行 、 集 群 、 网 格 、P2P 系 
统 、 云 和 分 布 式 系统 领域 最 新 进展 的 一 些 国际 会 议 、 杂 志和 期 刊 ; 

。 EEE 及 相关 会 议 刊物 : 互联 网 计算 ，TPDS 《并行 与 分 布 式 系 统 汇 刊 )，TC (计算 机 汇 

Fl), TON (网 络 汇 刊 ) ，ICDCS (分 布 式 计算 系统 国际 会 议 ) ，IPDPS (国际 并 行 与 分 布 
处 理 研讨 会 ) INFOCOM, GLOBECOM, CCGrid (集群 、 云 和 网 格 ) ，P2P 计算 ，HPDC 
《高 性 能 分 布 式 计算 ) ，CloudCom ( 云 计算 技术 和 科学 国际 会 议 ) ISCA (计算 机 体系 
结构 国际 研讨 会 ) ，HPCA (高 性 能 计算 机 体系 结构 ) ， 计 算 机 杂志 ，TDSC (可 靠 和 安 
全 计算 汇 刊 ) TKDE (知识 与 数据 工程 汇 刊 ) HPCC (高 性 能 计算 和 通信 ) ，ICPADS 
《并行 与 分 布 式 应 用 和 系统 国际 会 议 ) NAS ( 网络 、 体 系 结构 和 存储 ) 和 GPC (网 格 
和 普 适 计算 ) 。 
ACM、 互 联网 协会 、IFIP 和 其 他 相关 出 版 物 : 超级 计算 会 议 ，ACM 计算 系统 汇 刊 ， 
USENIX 技术 会 议 ，JPDC (并 行 和 分 布 式 计 算 期 刊 )， 云 计算 期 刊 ， 分 布 式 计算 期 刊 ， 集 
群 计 算 期 刊 ， 下 一 代 计算 机 系统 ， 网 格 计算 期 刊 ， 并 行 计 算 期 刊 ， 并 行 处 理 国 际会 议 
(ICPP) ， 欧 洲 并 行 计算 会 议 (EuroPAR)， 并 发 : 实践 与 经 验 (Wiley), NPC (IFIP 网 络 
和 和 并 行 计算 )，PDCS (ISCA 并 行 与 分 布 式 计算 机 系统 ) 。 
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习题 
1.1 简要 地 定义 以 下 在 计算 机 体系 结构 、 并 行 处 理 、 分 布 式 计算 、 互 联网 技术 、 信 息 服 务 领 域 代表 最 近 相 
关 进 展 的 基本 技术 : 


a 高 性 能 计算 (HPC) 系统 
高 吞吐 量 计算 (HTC) 系统 
c 对 等 (P2P) 网 络 
d 计算 机 集群 与 计算 网 格 
面向 服务 的 体系 结构 (SOA) 
普 适 计 算 与 互联 网 计算 
g 虚拟 机 和 虚拟 基础 设施 
h 公有 云 与 私有 云 
i 射频 识别 (RFID) 
j 全 球 定位 系统 (GPS) 
k. 传感器 网 络 
L 物 联网 (IoT) 
m. 信息 物理 系统 (CPS) 
1.2 在 下 面 两 个 问题 中 选 出 唯一 的 正确 答案 : 
1. 2009 年 最 快 的 计算 机 系统 排名 Top500 中 ， 哪 个 体系 结构 占 主宰 地 位 ? 
a 对称 共享 内 存 多 处 理 器 系统 
b. 集中 式 大 规模 并 行 处 理 器 (MPP) 系统 
c. 协同 计算 机 集群 
2. 在 由 服务 器 集群 形成 的 云 中 ， 所 有 服务 器 必须 采用 下 面 刀 种 方式 ? 
a 所 有 云 机 器 必须 构建 在 物理 机 上 
b. 所 有 云 机 器 必须 构建 在 虚拟 机 上 
c 云 机 器 可 以 是 物理 机 也 可 以 是 虚拟 机 
1.3 越 来 越 多 的 工业 和 商业 组 织 采 用 云 系统 。 关 于 云 计 算 ， 回 答 以 下 问题 : 
a 列 出 并 描述 云 计算 系统 的 主要 特点 。 
b. 讨论 云 计算 系统 中 的 关键 技术 。 


> 


p 


ph 
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co 讨论 云 服务 提供 商 最 大 化 收入 的 不 同方 式 。 
1.4 ”将 左 侧 术语 缩写 和 系统 模型 同 右 侧 的 描述 匹配 起 来 ， 将 描述 的 标号 填 人 术语 前 的 空格 中 。 





< 
Globus (a) 由 Apache {B FAP KATAS Mis WAKE HAR TS eK 
平台 
BitTorrent = (b) 通过 集中 式 目录 服务 器 进行 MP3 音乐 分 发 的 P2P 网 络 
Gnutella (c) 谷歌 用 于 超大 数据 集 分 布 式 映射 和 压缩 的 编程 模型 与 相关 实现 


EC2 (d) 由 USCIS 和 阿 贡 国家 实验 室 联合 开发 的 用 于 网 格 资源 管理 和 作业 调度 的 中 间 件 库 
TeraGrid (e) 谷歌 用 于 管理 可 能 扩展 到 超大 规模 的 结构 化 数据 的 分 布 式 存储 程序 
EGEE (f) 使 用 多 文件 索引 的 P2P 文件 共享 网 络 


— Hadoop (g) 计算 机 集群 节点 容错 和 主机 故障 恢复 的 关键 设计 目标 

_ SETI@ home (h) 作为 开放 网 格 标 准 的 服务 体系 结构 说 明 

— Napster Ci) 一 个 允许 网 络 应 用 开发 者 有 效 获取 云 资 源 的 弹性 且 灵 活 的 计算 环境 

____ BigTable G) 用 于 在 寻找 地 外 文明 中 进行 分 布 式 信号 处 理 的 超过 300 万 台 台 式 计算 机 的 P2P 网 格 


1.5 考虑 4 个 异 构 内 核 标记 为 A、B、C 和 DD 的 多 核 处 理 器 。 假 设 核 A 和 核 D 有 相同 的 速度 。 核 B 运行 速 
EE C 快 2 倍 ,， 核 C 运行 速度 比 核 A 快 3 倍 。 假 设 所 有 4 个 内 核 同时 执行 下 面 的 应 用 程序 且 在 所 有 
核 运行 过 程 中 没有 缓存 未 命中 情况 。 假 设 应 用 程序 需要 计算 数组 中 256 个 元 素 的 平方 。 假 设 核 A 或 核 
D 在 1 个 单元 时 间 能 计算 1 个 元 素 的 平方 。 因 此 ， 核 B 需要 1/2 个 单元 时 间 ,， 核 C 需要 1/3 个 单元 时 
间 计 算 一 个 元 素 的 平台 。 给 出 4 个 核 的 分 工 ; 























核 A 32 个 元 素 
核 B 128 个 元 素 
KC 64 个 元 素 
KD 32 个 元 素 














a 计算 使 用 4 核 处 理 器 并 行 计算 256 个 元 素平 方 的 总 运行 时 间 (单元 时 间 ) 。4 个 核 速度 不 同 。 一 些 快 
的 核 完成 任务 后 可 能 会 空闲 下 来 ， 而 其 他 核 仍 进行 计算 直到 所 有 平方 算 完 。 
b 计算 处 理 器 利用 率 ， 所 有 核 工作 非 空闲 ) 总 时 间 除 以 执行 上 面 应 用 程序 时 处 理 器 中 所 有 核 总 运行 
时 间 。 

1.6 考虑 在 SPMD (单程 序 多 数据 流 ) 模式 的 n 台 相同 Linux 服务 器 组 成 的 集群 上 并 行 执行 一 个 使 用 MPI 
代码 的 C 程序 。SPMD 模式 意味 着 相同 的 MPI 程序 同时 运行 在 所 有 服务 器 上 但 处 理 相同 负载 的 不 同 数 
据 集 。 假 设 25% 的 程序 执行 是 MPI 命令 的 执行 。 为 简单 起 见 ， 假 设 所 有 MPI 命令 消耗 相同 的 执行 时 
间 。 运 用 Amdahl 定律 回答 下 列 问题 ; 

a. 给 定 MPI 程序 在 4 服务 器 集群 上 的 总 执行 时 间 是 7 分钟， 在 256 个 服务 器 的 集群 上 执行 相同 MPI 程 
序 的 加 速 比 是 多 少 ? 假定 程序 执行 是 无 死 锁 的 并 且 忽 略 计算 中 所 有 其 他 运行 时 开销 。 

b. 假设 所 有 MPI 命令 现在 通过 用 户 空间 消息 句柄 采用 动态 消息 效率 提升 了 2 倍 。 提 升 使 所 有 MPI 命令 
的 运行 时 间 减 少 了 一 半 。 安 装 了 这 种 MPI 改进 的 256 个 服务 器 集群 ， 相 对 于 原来 加 速 比 是 多 少 ? 

1.7 考虑 一 个 计算 两 个 大 规模 的 Nx W 矩阵 乘法 的 程序 ， 其 中 N 是 矩阵 大 小 。 单 服务 器 上 串 行 乘法 执行 时 
间 是 7, =cN? 分 钟 ， 其 中 上 是 由 所 用 服务 器 决定 的 常量 。 一 个 MPI 并 行程 序 在 一 个 n 服务 器 集群 系统 完 
成 执行 需要 T, =eN?/n+dN?/nr"; 分 钟 ， 其 中 4 是 一 个 由 所 使 用 MPL 版 本 决定 的 常量 。 假 定 程序 的 串 行 
瓶颈 是 0 (a =0) 。7, 中 的 第 二 项 表示 n 个 服务 器 总 的 消息 传递 开销 。 

对 于 给 定 集群 配置 : n = 64 个 服务 器 ，c =0.8，d =0.1。 回 答 如 下 问题 。a Alb 部 分 有 一 个 相应 于 
矩阵 大 小 W= 15 000 的 固定 负载 。e 和 d 部 分 有 一 个 相应 于 矩阵 大 小 N = meN=642 x15 000 =4x 
15 000 = 60 000 的 扩展 负载 。 假 设 用 相同 的 集群 配置 来 处 理 两 个 负载 。 那 么 ， 系 统 参数 n、c Ad 保持 
不 变 。 运 行 扩展 负载 ， 开 销 也 会 随 着 矩阵 N' 的 增 大 而 增长 。 

a. 使 用 Amdahl 定律 ， 计 算 n 服务 器 集群 相对 单 服务 器 的 加 速 比 。 
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1.8 


1.10 


1.12 


1. 13 


1.14 


b. a 部 分 使 用 的 集群 系统 效率 是 多 少 ? 

c. 使 用 Gustafson 定律 计算 相同 集群 配置 下 执行 扩展 的 N xN' 和 矩阵 计算 的 加 速 比 。 

d. 计算 在 64 处 理 器 集群 上 运行 c 部 分 扩展 负载 的 效率 。 

e 比较 以 上 运算 加 速 比 和 效率 结果 并 评价 它们 的 影响 。 

比较 传统 计算 集群 /网 格 和 近年 来 兴起 的 计算 云 之 间 的 相似 和 不 同 。 考 虑 下面 列 出 的 所 有 技术 和 经 济 因 

素 。 针 对 这 些 年 构建 的 实例 系统 或 平台 回答 下 列 问题 ， 并 讨论 两 个 计算 范式 在 将 来 可 能 的 融合 点 。 

a 硬件 、 软 件 和 网 络 支 持 

b. 资源 分 配 和 供给 方法 

c 基础 设施 管理 和 保护 

d. 计算 服务 效用 支持 

e 操作 和 耗费 模型 应 用 

针对 PC 和 HPC 系统 ， 回 答 下 列 问 题 : 

a 解释 为 什么 个 人 计算 机 和 高 性 能 计算 近期 的 变革 超过 过 去 30 年 的 变革 。 

b 讨论 处 理 器 架构 的 破坏 性 改变 的 缺 聊 。 为 什么 内 存 墙 是 性 能 可 扩展 的 主要 问题 ? 

c. 解释 为 什么 x86 处 理 器 仍然 主宰 着 PC 和 HPC 市场。 

多 核 和 众 核 处 理 器 已 经 广泛 应 用 于 台式 计算 机 和 HPC 系统 中 。 针 对 先进 的 处 理 器 、 内 存 设备 和 系统 

互 连 设备 回答 下 列 问 题 : 

a. 多 核 CPU 和 GPU 在 体系 结构 和 使 用 方面 的 不 同 之 处 是 什么 ? 

b. 解释 为 什么 并 行 编程 模型 无 法 匹配 处 理 器 技术 的 进步 。 

c 针对 核心 扩展 与 有 效 编程 和 使 用 多 核 的 不 匹配 之 间 的 问题 给 出 建议 ， 并 面 对 似 是 而 非 的 解决 方法 
捍卫 你 的 观点 。 

d. 解释 为 什么 闪存 SSD 在 一 些 HPC 和 HTC 应 用 中 可 以 得 到 更 好 的 加 速 比 。 

e. 说 明 InfiniBand 和 以 太 网 将 继续 主宰 HPC 市 场 这 个 预测 是 合理 的 。 

在 图 1-7 中 ， 你 了 解 了 现代 处 理 器 的 5 个 分 类 。 表 1-9 中 刻画 了 设计 这 些 处 理 器 的 5 个 微 体 系 结构 。 

评价 它们 的 优 缺 点 并 给 出 每 个 处 理 器 分 类 中 两 个 商业 处 理 器 的 例子 。 假 设 一 个 单 核 超 标量 处 理 器 和 三 

个 多 线程 处 理 器 ， 上 述 处 理 器 分 类 是 一 个 多 核 CMP 并 且 每 个 核心 处 理 一 个 线程 。 


表 1-9 现代 处 理 器 5 个 微 体系 结构 比较 
处 理 器 微 体系 结构 体系 结构 特点 优点 /缺点 典型 处 理 器 
单线 程 超标 量 
细 粒 度 多 线程 
粗 粒 度 多 线程 
并 发 多 线程 (SMT) 
片上 多 核 多 处 理 器 (CMP) 





讨论 下 列 领 域 的 主要 优点 和 缺点 ， 

a 为 什么 云 计算 系统 中 虚拟 机 和 虚拟 集群 备 受 推崇 ? 
b. 建立 合算 的 虚拟 云 系统 需要 哪些 突破 ? 

c. 云 平台 对 于 HPC 和 HTC 在 工业 界 的 未 来 有 什么 影响 ? 
描述 下 列 三 个 云 计算 模型 

a 什么 是 Iaas (基础 设施 即 服务 ) 云 ? 给 出 一 个 例子 。 
b. 什么 是 PaaS (FARRS) 云 ? 给 出 一 个 例子 。 

c. 什么 是 SaaS (软件 即 服 务 ) 云 ? 给 出 一 个 例子 。 
简要 解释 下 面 的 云 计算 服务 。 在 每 个 服务 类 别 下 给 出 两 个 云 提供 商 的 公司 名 。 
a 应 用 云 服 务 

b 平台 云 服务 


1.15 


第 1 章 分 布 式 系统 模型 和 关键 技术 43 


c. 计算 和 存储 服务 

d. 分 配 云 服务 

e. 网 络 云 服务 

简要 解释 下 列 分 布 式 计算 系统 中 网 络 威胁 和 安全 防御 相关 的 术语 : 

a. 拒绝 服务 (DoS) 

b. 木马 

c 网 络 蠕虫 

d. 服务 欺诈 

e. 授权 

£ 认证 

g 数据 完整 性 

h. 保密 性 

针对 绿色 信息 技术 和 分 布 式 系统 节能 ， 简 要 回答 下 列 问题 : 

a 为 什么 数据 中 心 运行 中 能 量 消 耗 是 关键 问题 ? 

b 动态 电压 频率 缩放 (DVFS) 技术 的 构成 ? 

c. 基于 现 有 绿色 IT 研究 的 进展 进行 深度 研究 ， 并 写 一 篇 关于 数据 中 心 设计 和 云 服 务 应 用 的 报告 。 
比较 GPU 和 CPU 芯片 各 自 的 优势 和 弱点 。 特 别 地 ， 讨 论 节能 、 可 编程 性 和 性 能 之 间 的 权衡 。 并 比较 
各 种 MPP 架构 在 处 理 器 选取 、 性 能 目标 、 效 率 和 封装 的 约束 。 

比较 三 种 分 布 式 操作 系统 : Amoeba, DCE 和 MOSIX。 调 研 它们 最 近 的 进展 和 对 集群 、 网 格 和 云 中 应 
用 的 影响 。 讨 论 每 个 系统 在 商业 或 实验 性 分 布 式 应 用 中 的 适应 性 。 并 讨论 每 个 系统 的 局 限 以 及 它们 为 
什么 不 如 商业 系统 成 功 。 
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可 扩展 并 行 计 算 集 群 








计算 机 集群 化 (clustering) 在 科学 与 商业 应 用 中 实现 了 可 扩展 并 行 计算 和 分 布 式 计算 。 本 章 
主要 学 习 建 立 集群 结构 的 大 规模 并 行 处 理 机 。 我 们 专注 于 硬件 、 软 件 、 中 间 件 、 操 作 系统 支持 的 
设计 原则 和 评估 ， 这 些 用 于 实现 集群 的 可 扩展 性 、 可 用 性 、 可 编程 性 、 单 系统 镜像 和 容错 能 力 。 
我 们 将 检测 Tianhe-1A、Gray XT5 Jaguar 和 IBM Roadrunner 的 集群 体系 结构 ， 同 时 还 将 介绍 LSF 
中 间 件 和 MOSIXZ0S， 它 们 在 构建 网 格 和 云 的 Linux RAE, CPU 和 集群， 以 及 集群 扩展 中 用 于 作业 
和 资源 管理 。 本 章 将 只 介绍 物理 集群 ， 虚 拟 集群 将 会 在 第 3 章 和 第 4 章 介绍 。 


2.1 大 规模 并 行 集群 


计算 机 集群 (computer cluster) 由 相互 联系 的 个 体 计 算 机 聚集 组 成 ， 这 些 计算 机 之 间 相 互联 
系 并 且 共 同 工 作 ， 对 于 用 户 来 说 ， 计 算 机 集群 如 同一 个 独立 完整 的 计算 资源 池 。 集 群 化 实现 作业 
级 的 大 规模 并 行 ， 并 通过 独立 操作 实现 高 可 用 性 。 计 算 机 集群 和 大 规模 并 行 处 理 器 (MPP) 的 
优点 包括 可 扩展 性 能 、 高 可 用 性 、 容 错 、 模 块 化 增长 和 使 用 商用 组 件 。 这 些 特征 能 够 维持 在 硬 
件 、 软 件 和 网 络 组 件 上 经 历 的 生成 变化 。 集 群 计算 兴起 于 20 世纪 90 年 代 中 期 ， 当 时 传统 的 大 型 
机 和 向 量 超级 计算 机 已 被 证 实在 高 性 能 计算 中 具有 较 低 的 成 本 效益 。 

2010 年 发 布 的 Top500 超级 计算 机 中 85% 是 由 同 构 节 点 构建 的 计算 机 集群 或 者 MPP。 计 算 机 
集群 依赖 于 当今 建立 在 数据 中 心 之 上 的 超级 计算 机 、 计 算 网 格 和 互联 网 云 。 现 今 ， 大 基 计 算 机 的 
应 用 变 得 日 益 重 要 。 根 据 最 近 IDC 预测 ， 高 性 能 计算 机 市 场 将 会 在 2010 年 到 2013 年 ， 由 85 亿 
美元 增长 到 105 亿美 元 。 大 部 分 Top500 超级 计算 机 被 用 于 科学 和 工程 中 的 高 性 能 计算 。 高 符 吐 
量 集群 服务 器 在 商业 和 Web 服务 应 用 中 也 被 更 为 广泛 地 使 用 。 

2.1.1 集群 发 展 趋势 

计算 机 集群 化 已 由 高 端 大 型 计算 机 的 相互 连接 转变 为 使 用 大 量 的 x86 引擎 。 计 算 机 集群 化 由 
大 型 计算 机 (如 IBM Sysplex 和 SGI Origin 3000) 之 间 的 链接 发 展 而 来 。 其 目的 是 满足 协同 组 计 
算 的 需求 ， 并 为 关键 企业 级 应 用 提供 更 高 的 可 用 性 。 随 后 ， 集 群 化 的 发 展 更 多 面向 网 络 中 的 大 量 
小 型 计算 机 ， 例 如 ，DEC 的 VMS 集群 化 是 由 共享 同一 套 磁 盘 / 磁 带 控制 器 的 多 个 VAX 互 连 组 成 。 
Tandem 的 Himalaya 是 为 容错 在 线 事务 处 理 〈Online Transaction Processing, OLTP) 应 用 而 设计 的 
商业 集群 。 . 

在 20 世纪 90 年 代 早 期 ， 接 下 来 是 建立 基于 UNIX 工作 站 集群 ， 其 中 具有 代表 性 的 是 Berkely 

NOW (Network of Workstations) 和 基于 AIX AY IBM SP2 服务 器 集群 。2000 年 以 后 ， 集 群发 展 趋势 
变 为 RISC 或 x86 个 人 计算 机 引擎 的 集群 化 。 集 群 产品 目前 已 出 现在 集成 系统 、 软 件 工 具 、 可 用 
基础 设施 和 操作 系统 扩展 中 。 集 群 化 的 发 展 趋势 与 计算 机 工业 的 削减 趋势 相 一 致 。 对 较 小 节点 
集群 的 支持 将 使 得 集群 配置 的 销售 额 以 模块 化 增 量 递增 。 从 IBM, DEC. Sun 和 SGI 到 Compaq 和 
Del, 计算 机 工业 的 发 展 使 得 可 以 采用 低 成 本 服务 器 或 x86 台式 计算 机 实现 具有 成 本 效益 、 可 扩 
展 性 和 高 可 用 性 特征 的 集群 化 。 
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集群 系统 的 里 程 碑 

集群 化 已 成 为 计算 机 体系 结构 中 的 热门 研究 方向 。 快 速 通信 、 作 业 调 度 、SSI 和 HA 是 集群 
研究 中 的 活路 课题。 表 2-1 中 列 出 了 部 分 里 程 碑 式 的 集群 研究 项 目 和 商业 集群 产品 。 这 些 老 集群 
的 细节 可 以 参阅 文献 [14] 。 这 些 里 程 碑 项 目 在 过 去 20 年 内 带领 着 集群 化 硬件 和 中 间 件 的 发 展 。 
列表 中 的 每 个 集群 均 发 展 了 一 些 独特 特征 。 现 代 集 群 朝 着 高 性 能 集群 的 方向 发 展 ， 这 将 在 2.5 节 
中 介绍 。 
表 2-1 研究 或 商业 集群 计算 机 系统 的 里 程 碑 '"4 
项 A | | 支持 集群 化 的 具体 特征 
DEC VAXcluster (1991) 运行 YMS/OS 及 其 扩展 的 SMP 服务 器 组 成 的 UNIX 集群， 主要 用 于 高 可 用 性 应 用 


加 放大 学 伯克利 分 校 | 
NOW 项 目 (1995) 


1 
菜 斯 大 学 的 TreadMarks 
(1996) 


Sun Solaris MC Cluster 建立 于 Sun Solaris 工作 站 之 上 的 研究 集群 ， 部 分 集群 操作 系统 功能 得 以 发 展 ， 但 是 从 
(1995) 未 商用 








工作 站 的 无 服务 器 网 络 ， 有 具有 动态 消息 传递 、 合 作 归 档 和 GLUnix 开发 的 特征 





软件 驱动 的 分 布 式 共享 内 存 ， 用 于 基于 页 面 迁 移 的 UNIX 工作 站 集群 








Tandem Himalaya Clustrer 
(1994) 

IBM SP2 服务 器 集群 由 Power2 节点 和 Omega 网 络 构建 的 AKX 服务 器 集群 ， 并 获得 IBM Loadleveler 和 MPI 扩 
(1996) 展 的 支持 

谷歌 搜索 引擎 集群 具有 4 000 个 节点 服务 器 的 集群 ， 用 于 互联 网 搜索 和 Web 服务 应 用 ， 提 供 分 布 式 文件 
(2003) 系统 和 容错 


if 
mem D10) ap://w 分 布 式 操作 系统 ， 用 于 Linux 集群 、 多 集群 、 网 格 和 云 ， 被 研究 机 构 使 用 


a -- 


NOW 项 目 解决 了 集群 计算 的 各 方面 问题 ， 包 括 体 系 结构 、Web 服务 器 的 软件 支持 、 单 系统 
RA. VO 与 文件 系统 、 高 效 通信 和 高 可 用 性 。 菜 斯 大 学 的 TreadMarks 是 软件 实现 共享 内 存 的 工 
作 站 集群 的 一 个 好 例子 。 内 存 共 享 通过 用 户 空间 运行 时 间 库 实现 ， 它 是 建立 在 Sun Solaris 工作 站 
上 的 研究 型 集群 。 部 分 集群 操作 系统 的 功能 得 到 了 发 展 ， 但 是 却 没有 成 功 地 用 于 商用 。 

使 用 VMS/OS 及 相关 扩展 的 SMP 服务 器 组 成 的 UNIX 集群 主要 用 于 高 可 用 性 应 用 。AIX 服务 
器 集群 主要 由 Power? 节点 和 Omega 网 络 组 成 ， 并 由 IBM Loadleveler 和 MPI 扩展 支持 。 用 于 OLTP 
和 数据 库 处 理 的 可 扩展 容错 集群 由 不 间断 操作 系统 支持 构建 。 谷 歌 搜索 引擎 建立 在 谷歌 使 用 的 
商品 组 件 上 。MOSIX 由 希 伯 来 大 学 在 1999 年 开始 使 用 ， 是 用 于 Linux 集群 、 多 集群 、 网 格 和 云 
的 分 布 式 操作 系统 。 

2. 1.2 计算 机 集群 的 设计 宗旨 

集群 的 分 类 方式 有 多 种 。 本 书 利用 集群 的 6 个 正 交 特 性 对 其 进行 分 类 : 可 扩展 性 、 封 装 、 控 
制 、 同 构 性 、 可 编程 性 和 安全 性 。 

2.1.2.1 可 扩展 性 

计算 机 集群 化 是 基于 模块 化 增长 的 概念 。 将 几 百 个 单 处 理 器 节点 的 集群 扩展 为 10 000 个 多 
核 节点 的 超级 集群 不 是 一 个 简单 任务 。 这 是 由 于 可 扩展 性 被 一 些 因 素 限 制 ， 如 多 核心 芯片 技术 、 
集群 拓扑 结构 、 封 装 方式 、 电 力 消耗 和 冷 控 制 技术 应 用 。 在 上 述 因素 的 影响 下 ， 若 目标 依然 是 实 
现 可 扩展 性 能 ， 则 还 必须 考虑 其 他 的 一 些 限制 因素 ， 如 内 存 墙 、 磁 盘 0 瓶颈 和 容许 时 延 等 。 

2.1.2.2 封装 

集群 节点 可 以 被 封装 成 紧凑 或 者 松散 的 形式 。 在 一 个 紧凑 (compact) 集群 中 ， 节 点 被 紧密 


用 于 OLTP 和 数据 库 进 程 的 可 扩展 与 容错 集群 ， 由 不 间断 操作 系统 支持 构建 
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布置 在 一 个 房间 内 的 一 个 或 多 个 货架 上 ， 且 节点 不 附 外 设 〈 显 示 器 、 键 盘 、 鼠 标 等 ) 。 在 一 个 松 
# (slack) 集群 中 ， 节 点 连接 到 它们 平常 的 外 设 (如 完整 的 SMP、 工 作 站 和 PC)， 并 且 节点 可 
能 位 于 不 同 的 房间 、 不 同 的 建筑 ， 甚 至 偏远 地 区 。 封 装 直接 影响 通信 线路 的 长 度 ， 因 此 需要 选择 
合适 的 互 连 技术 。 紧 次 集群 通常 利用 专 有 的 高 带宽 、 低 延迟 的 通信 网 络 ， 而 松散 集群 节点 一 般 由 
标准 的 局 域 网 或 广域网 连接 。 

2.1.2.3 控制 

集群 能 够 以 集中 或 分 散 的 形式 被 控制 或 管理 。 紧 姿 集群 通常 集中 控制 ， 而 松散 集群 可 以 采 
取 男 一 种 方式 。 在 集中 式 集群 中 ， 中 心 管理 者 拥有 、 控 制 、 管 理 和 操作 所 有 节点 。 在 分 散 式 集群 
中 ,节点 有 各 自 的 拥有 者 。 例 如 ， 考 虑 某 个 部 门 中 由 互 连 台 式 工作 站 组 成 的 集群 ， 其 中 每 个 工作 
站 分 别 被 某 个 职员 拥有 。 拥 有 者 可 以 在 任何 时 间 重 新 配置 、 更 新 ， 甚 至 关闭 工作 站 。 由 于 单 点 控 
制 的 缺陷 ， 因 此 系统 很 难 管理 这 样 一 个 集群 。 它 同样 需要 进程 调度 、 负 载 迁 移 、 检 查 点 、 记 账 和 
其 他 类 似 任 务 的 特殊 技术 。 

2.1.2.4 同 构 性 

同 构 集群 采用 来 自 相同 平台 的 节点 ， 即 节点 具有 相同 处 理 器 体系 结构 和 相同 操作 系统 。 通 
常情 况 下 ， 这 些 节点 都 来 自 同一 提供 商 。 弄 构 集群 使 用 来 自 不 同 平台 的 节点 。 互 操作 性 是 异 构 集 
群 的 一 个 非常 重要 的 问题 。 例 如 ， 进 程 迁移 通常 需要 满足 负载 均衡 或 可 用 性 。 在 同 构 集 群 中 ， 二 
进 制 进程 镜像 可 以 迁移 到 另 一 个 节点 并 能 够 继续 执行 。 这 在 异 构 集群 中 是 不 允许 的 ， 因 为 当 进 
程 迁移 到 不 同 平台 的 节点 上 时 ， 二 进 制 代 码 不 继续 执行 。 

2.1.2.5 安全 性 

集群 内 通信 可 以 是 开放 的 或 封闭 的 。 开 放 集群 节点 间 的 通信 路 径 对 外 界 显 示 。 外 界 机 器 可 
采用 标准 协议 〈 如 TCP/IP) 访问 通信 路 径 ， 从 而 访问 单独 节点 。 这 种 集群 容易 实现 ， 但 有 几 个 
缺点 : 

。 由 于 开放 ， 集 群 内 通信 变 得 不 安全 ， 除 非 通信 子 系统 提供 附加 的 功能 来 确保 隐私 和 安全 。 

。 外 界 通信 可 能 以 不 可 预测 的 形式 干扰 集群 内 通信 。 例 如 ， 重 BBS 流量 可 能 干扰 生产 作业 。 

。 标准 通信 协议 往往 具有 巨大 的 开销 。 

在 封闭 集群 中 ， 集 群 内 通信 与 外 界 相隔 离 ， 从 而 缓解 了 上 述 问题 。 其 不 利 条 件 是 目前 还 没有 
高 效 、 封 闭 的 集群 内 通信 标准 。 因 此 ， 大 多 数 商 业 或 学 术 集 群 按照 各 自 的 协议 实现 高 速 通信 。 

2.1.2.6 专用 集群 和 企业 集群 

专用 集群 通常 安装 在 中 央 计 算 机 机 房 的 台 前 架 上 。 专 用 集群 由 相同 类 型 的 计算 机 节点 同 构 
配置 ， 并 且 由 一 个 类 似 前 端 主机 的 独立 管理 组 管理 。 专 用 集群 被 用 于 代替 传统 的 大 型 机 或 超级 
计算 机 。 专 用 集群 的 安装 、 使 用 、 管 理 与 单一 机 器 相似 。 许 多 用 户 可 以 登录 集群 执行 交互 和 批量 
作业 。 专 用 集群 极 大 地 提高 了 吞吐 量 ， 并 且 减 少 了 响应 时 间 。 

企业 集群 主要 利用 节点 的 闲置 资源 ， 每 个 节点 通常 是 一 个 完整 的 SMP、 工 作 站 或 PC 及 其 所 
有 必要 的 外 部 设备 。 这 些 节点 通常 在 地 理 上 是 分 散 的 ， 不 一 定 在 同一 个 房间 甚至 同一 幢 楼 里 。 这 
些 节 点 分 别 被 多 个 所 有 者 拥有 。 集 群 管理 员 只 有 有 限 的 控制 权 ， 因 为 一 个 节点 可 以 在 任何 时 候 
被 它 的 所 有 者 关闭 ， 且 所 有 者 的 “本 地 ”作业 比 企业 作业 具有 更 高 的 优先 级 。 这 类 集群 通常 是 
由 蜡 构 计 算 机 节点 配置 的 。 这 些 节 点 通常 由 低 成 本 的 以 太 网 网 络 连 接 。 大 多 数 数据 中 心 由 低 成 
本 的 服务 器 集群 构成 。 虚 拟 集群 在 数据 中 心 升级 中 起 着 重要 作用 。 我 们 将 在 第 6 章 讨论 虚拟 集 
群 ， 在 第 7 章 、 第 8 章 和 第 9 章 讨论 云 。 
2.1.3 基础 集群 设计 问题 

本 节 将 对 各 种 集群 和 MPP 分 类 ， 然 后 将 会 确定 集群 和 MPP 系统 中 的 主要 设计 问题 ， 包 括 物 
PATTER. 这些 系统 经 常 出 现在 计算 网 格 、 国 家 实验 室 、 商 业 数 据 中 心 、 超 级 计算 机 网 站 和 
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虚拟 云 平台 中 。 正 确 理解 集群 和 MPP 的 集体 运行 将 对 整体 理解 后 续 章 节 介绍 的 网 格 和 互联 网 云 
提供 极 大 的 帮助 。 在 推进 和 使 用 集群 的 过 程 中 应 该 考虑 一 些 问 题 。 虽然 在 这 些 问 题 上 已 有 大 量 
的 研究 ， 但 这 仍 是 一 个 活跃 的 研究 和 发 展 领 域 。 
2.1.3.1 可 扩展 性 能 
资源 扩展 (集群 节点 、 内 存 容量 、L/O 带宽 等 ) 使 性 能 成 比例 增长 。 当 然 ， 基 于 应 用 需求 或 
者 成 本 效益 考虑 ， 扩 大 和 减少 的 能 力 都 是 必需 的 。 集 群 化 因为 其 可 扩展 性 得 以 发 展 ， 在 任何 集群 
或 MPP 计算 机 系统 应 用 中 都 不 应 忽视 可 扩展 性 。 
2.1.3.2 单 系统 镜像 (SSI) 
采用 以 太 网 连接 的 工作 站 集合 不 一 定 就 是 一 个 集群 。 集 群 是 一 个 独立 的 系统 。 例 如 ， 假 设 一 
个 工作 站 拥有 一 个 300 Mflops/s 的 处 理 器 、512 MB 内 存 和 4 CB 硬盘 ， 并 且 能 够 支持 50 位 活跃 用 
户 和 1 000 个 进程 。100 个 这 样 的 工作 站 组 成 的 集群 能 否 看 做 为 单一 的 系统 ， 即 相当 于 拥有 一 
30 Gflops/s 处 理 器 、50 GB 内 存 和 400 GB 的 磁盘 ， 并 能 支持 5 000 位 活跃 用 户 和 100 000 个 进程 
的 巨大 工作 站 或 大 规模 站 (megastation)? 这 是 一 个 吸引 人 的 目标 ,但 是 难以 实现 。SSI HAREE 
达成 这 个 目标 。 
2.1.3.3 可 用 性 支持 
集群 能 够 利用 处 理 器 、 内 存 、 磁 盘 、L0 设备 、 网 络 和 操作 系统 镜像 的 大 量 元 余 提供 低 成 
本 、 高 可 用 性 的 性 能 。 然 而 ， 要 实现 这 一 潜力 ， 可 用 性 技术 是 必需 的 。 我 们 将 在 介绍 DEC 集群 
(10.4 47) 和 IBM SP2 (10.3 47) 如 何尝 斌 实现 高 可 用 性 时 ， 具 体 说 明 这 些 技术 。 
2.1.3.4 集群 作业 管理 
集群 尝试 使 用 传统 工作 站 或 PC 节点 实现 高 系统 利用 率 ， 而 这 些 资 源 通常 是 不 能 被 很 好 利用 
的 。 作 业 管 理 软件 需要 提供 批量 、 负 载 均衡 和 并 行 处 理 等 功能 。 我 们 将 在 3. 4 节 学 习 集群 作业 管 
理 系 统 。 同 时 管理 多 个 作业 需要 特殊 的 软件 工具 。 
2.1.3.5 节点 间 通 信 
集群 由 于 具有 更 高 的 节点 复杂 度 ， 故 不 能 被 封装 得 如 MPP 节点 一 样 的 简洁 。 集 群 内 节点 之 
间 的 物理 网 线 长 度 比 MPP 长 。 这 在 集中 式 集 群 中 也 是 成 立 的 。 长 网 线 会 导致 更 大 的 互连网 络 延 
术 。 更 重要 的 是 ,长 网 线 会 产生 可 靠 性 、 时 钟 偏差 和 交叉 会 话 等 更 多 方面 问题 。 这 些 问 题 要 求 使 
用 可 靠 和 安全 的 通信 协议 ， 而 这 会 增加 开销 。 集 群 通常 使 用 TCP/IP 等 标准 协议 的 商用 网 络 (如 
以 太 网 ) 。 
2.1.3.6 容错 和 恢复 
机 器 集群 能 够 消除 所 有 的 单 点 失效 。 因 为 宛 余 ， 集 群 能 在 一 定 程 度 上 容忍 出 错 的 情况 。 心 跳 
机 制 可 以 监控 所 有 节点 的 运行 状况 。 如 果 一 个 节点 发 生 故 障 ， 那 么 该 节点 上 运行 的 关键 作业 可 
以 被 转移 到 正常 运行 的 节点 上 。 回 滚 恢复 机 制 通过 周期 性 记录 检查 点 来 恢复 计算 结果 。 
2.1.3.7 集群 分 类 
基于 应 用 和 需求， 计算机 集群 可 以 分 为 三 类 : 
。 计算 集群 : 主要 用 于 单一 大 规模 作业 的 集体 计算 。 一 个 很 好 的 例子 是 用 于 天 气 状况 数值 
模拟 的 集群 。 计 算 集 群 不 需要 处 理 很 多 的 0 操作 ， 如 数据 库 服 务 。 当 单一 计算 作业 需 
要 集群 中 节点 间 的 频繁 通信 ， 该 集群 必须 共享 一 个 专用 网 络 ， 因 而 这 些 节 点 大 多 是 同 构 
和 紧 耦 合 的 。 这 种 类 型 的 集群 也 被 称 为 贝 奥 武夫 集群 。 

当 集群 需要 在 少量 重负 载 节点 间 通 信 时 ， 其 从 本 质 上 就 是 众所周知 的 计算 网 格 。 紧 
耦合 计算 集群 用 于 超级 计算 应 用 。 计 算 集 群 应 用 中 间 件 (如 消息 传递 接口 (Message- 
Passing Interface, MPI) 或 并 行 虚拟 机 (Parallel Virtual Machine, PVM), 将 程序 传递 到 
更 广 的 集群 。 
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。 高 可 用 性 集群 : 用 于 容错 和 实现 服务 的 高 可 用 性 。 高 可 用 性 集群 中 有 很 多 元 余 节 点 以 容 
忍 故 障 或 失效 。 最 简单 的 高 可 用 性 集群 只 有 两 个 可 以 互相 转移 的 节点 。 当 然 ， 高 宛 余 可 
以 提供 更 高 的 可 用 性 。 可 用 性 集群 的 设计 应 避免 所 有 单 点 失效 。 很 多 商业 高 可 用 性 集群 
能 使 用 各 种 不 同 操作 系统 。 
。 负载 均 衡 集 群 : 通过 使 集群 中 所 有 节点 的 负载 均衡 而 达到 更 高 的 资源 利用 。 所 有 节点 如 
同 单个 虚拟 机 (Virtual Machine, VM) 一 样 ， 共 享 任务 或 功能 。 来 自用 户 的 请 求 被 分 发 至 
集群 的 所 有 计算 机 节点 ， 这 样 就 可 以 在 不 同 机 器 间 平 衡 负载 ， 从 而 达到 更 高 的 资源 利用 
或 性 能 。 为 了 在 所 有 集群 节点 间 迁 移 作 业 或 进程 来 实现 动态 负载 均衡 ， 中 间 件 是 必需 的 。 
2.1.4 Top500 超级 计算 机 分 析 
每 隔 6 个 月 ， 会 在 超大 数据 集 上 运行 Linpack 基准 测试 程序 评测 出 世界 Top500 超级 计算 机 ， 
此 排名 每 年 会 发 生 一 些 变化 。 在 本 节 中 ， 我 们 将 分 析 在 体系 结构 、 速 度 、 操 作 系统 、 国 家 和 应 用 
方面 的 历史 因素 。 此 外 ， 我 们 将 比较 近年 快速 系统 的 前 5 名 。 
2.1.4.1 体系 结构 演变 
观察 图 2-1，Top500 超级 计算 机 这 些 年 在 体系 结构 演变 方面 很 有 趣 。 在 1993 年 ，250 个 系统 
Æ SMP 体系 结构 的 ， 并 且 这 些 SMP 系统 在 2002 年 6 月 以 后 都 不 再 使 用 。 大 多 数 SMP 采用 共享 内 
存 和 LO 设备 的 结构 。 在 1993 Æ, Æ 120 个 MPP 系统 ， 到 2000 年 时 ，MDD 达到 峰值 350 个 系 
统 ， 而 到 2010 年 又 减少 到 不 足 100 个 系统 。 单 指令 多 数据 (SIMD) 机 器 在 1997 年 消失 ， 而 集 
群体 系 结构 在 1999 年 开始 出 现 。 现 在 ， 集 群 在 Top500 超级 计算 机 中 处 于 支配 地 位 。 











图 2-1 Top500 系统 的 体系 结构 分 布 


2010 年 ，Top500 计算 机 体系 结构 包括 集群 (420 个 系统 ) 和 MPP (80 个 系统 ) 。 这 两 类 系 
统 的 基本 区 别 源 于 构建 系统 的 组 件 。 集 群 通常 采用 市 场 上 的 商用 硬件 、 软 件 和 网 络 组 件 。 而 
MPP 采用 定制 的 计算 节点 、 播 件 、 模 块 和 机 壳 ， 它 们 之 间 的 互 连 被 特定 封装 。MPP 要 求 高 带宽 、 
低 延 迟 、 更 好 的 能 效 和 高 可 靠 性 。 在 考虑 成 本 的 前 提 下 ， 集 群 为 了 满足 性 能 扩展 ， 而 允许 模块 化 
增长 。MPP 因为 其 成 本 高 ， 故 而 出 现 得 较 少 。 一 般 来 说 ， 每 个 国家 只 有 很 少 的 MPP 超级 计算 机 。 

2.1.4.2 速度 提升 

图 2-2 绘制 了 1993 年 至 2010 年 Top500 快速 计算 机 的 测量 性 能 。y 轴 按 照 Gflops、Tflops 和 
Pflops 表示 持续 速度 性 能 。 中 间 曲 线 描绘 了 17 年 来 最 快速 计算 机 的 性 能 ， 峰 值 性 能 从 58.7 Gflops 
增长 到 2. 566 Pflops。 底 部 曲线 对 应 于 第 500 位 计算 机 的 速度 ， 由 1993 年 的 0.42 Gflops 增长 为 
2010 年 的 31. 1 Tflops。 顶 部 曲线 描述 了 同一 时 期 这 500 个 计算 机 的 速度 之 和 。 在 2010 年 ，500 个 
计算 机 的 总 体 速度 之 和 达到 43.7 Pflops。 有 趣 的 是 ， 总 体 速 度 几 乎 随 着 时 间 呈 线性 增加 。 
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图 2-2 Top500 超级 计算 机 的 性 能 变化 曲线 (1993—2010) 
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注 ; 摘自 www. top500. org 


2.1.4.3 Top500 操作 系统 趋势 
根据 TOPSOO. org (www. top500. org/stats/list/36/os) 在 2010 年 11 月 发 布 的 数据 ， 最 通用 的 
5 个 操作 系统 占 Top500 计算 机 的 市 场 份额 已 经 超过 10% 。 根 据 数据 ， 使 用 Linux 的 410 个 超级 计 
算 机 的 总 处 理 器 数 超过 了 450 F, 82% 的 系统 是 Linux。 排 名 第 2 位 的 是 IBM AIXA0S， 被 用 于 17 
个 系统 (453.4% 份额 ) ， 处 理 器 数 超过 了 94 288 个 。 第 3 位 的 是 SLEs10. 与 SGI ProPackS 的 联合 
使 用 有 15 个 系统 (3%) 和 135 200 个 处 理 器 。 第 4 位 的 是 CNK/SLESO, HAF 14 个 系统 
(2.8% ) 和 113 万 个 处 理 器 。 最 后 ，CNL/OS 被 部 署 于 178 577 个 处 理 器 的 10 个 系统 (2% ) 中 。 
余下 的 34 个 系统 使 用 的 其 余 13 种 操作 系统 只 占 6.8% 。 总 之 ，Linux 操作 系统 在 Top500 计算 机 
中 占据 支配 地 位 。 
2.1.4.4 2010 年 前 5 名 超 算 系 统 
表 2-2 总 结 了 2010 年 11 月 发 布 的 五 大 超级 计算 机 的 关键 体系 结构 特征 以 及 持续 Linpack 基 
准 测试 性 能 。Tianhe-1A 在 2010 年 底 成 为 最 快 的 MPP, 该 系统 由 中 国 国防 科学 技术 大 学 使 用 
86 386^ Intel Xeon CPU 和 NVIDIA GPU 构建 而 成 。 我 们 将 在 2.5 节 展 示 某 些 领先 的 超级 计算 机 ， 
. 包括 Tianhe-1A、Cray Jaguar, Nebulae #1 IBM Roadrunner， 它 们 在 2008 年 到 2010 年 都 是 领先 的 系 
统 。 表 2-3 中 的 五 大 机 器 已 经 高 于 1 Pfiops 的 速度 ， 其 中 ，Pflops 量 级 的 持续 速度 (Ro) 是 从 执 
行 最 大 规模 矩阵 的 Linpack 基准 程序 测量 得 来 的 。 
持续 速度 与 峰值 速度 〈R,。) 的 比值 反映 了 系统 效率 ， 蜂 值 速度 为 系统 中 所 有 计算 组 件 得 到 
充分 利用 时 的 速度 。 前 5 位 系统 中 ,美国 构建 的 两 个 系统 (Jaguar 和 Hopper) 效率 最 高 ， 超 过 
75% 。 由 中 国 构建 的 两 个 系统 (Tianhe-1A 和 Nebulae) 以 及 日 本 的 TSUBAME 2.0, 效率 较 低 。 
换 句 话说 ， 这 些 系 统 在 未 来 仍 有 改进 的 空间 。 这 5 个 系统 的 平均 功 耗 是 3.22 MW。 这 意味 在 未 来 
过 度 的 功 耗 可 能 会 限制 构建 更 快 的 超级 计算 机 。 为 了 充分 利用 平均 每 个 系统 的 230 000 个 处 理 器 
核心 ， 这 些 项 尖 系 统 强调 大 规模 并 行 性 。 
2.1.4.5 国家 份额 和 应 用 共享 
在 2010 年 Top500 名 单 上 ，274 个 超级 计算 系统 安装 在 美国 ，41 个 系统 在 中 国 ，103 个 系统 
在 日 本 、 法 国 、 英 国 和 德国 ， 其 余 国 家 只 有 82 个 系统 。 国 家 份额 大 致 反映 了 该 国家 这 些 年 的 经 
济 增长 水 平 。Top500 的 国家 排名 每 6 个 月 更 新 一 次 。 超 级 计算 机 应 用 增长 主要 在 数据 库 、 研 究 、 
金融 和 信息 服务 等 领域 。 
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表 2-2 前 5 位 超级 计算 机 评测 (2010 年 11 A) 
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表 2-3 用 于 大 型 集群 构造 的 样本 计算 节点 体系 结构 








节点 体系 结构 代表 系统 
同 构 节点 ， 使 用 相同 的 多 多 核 处 理 器 安装 于 同一 节点 上 ， 通 过 交 Cray XT5 的 每 个 计算 节点 具有 2 个 6 
核 处 理 器 叉 开 关连 接 到 共享 内 存 或 本 地 磁盘 核 AMD Opteron 处 理 器 
混合 节点 ， 使 用 CPU 和 通用 CPU 用 于 整 型 计算 ，GPU 作为 协 PHAM 1 号 的 每 个 计算 节点 使 用 2 
74] GPU 或 者 FLP 加 速 器 作 处 理 器 以 加 速 FLP 操作 个 Intel Xeon 处 理 器 与 1 个 NVIDIA GPU 








2.1.4.6 2010 年 前 5 名 超级 计算 机 的 能 耗 和 性 能 

如 图 2-3 所 示 ， 依 据 左边 的 速度 (Cflops) 和 右边 的 能 耗 (MW/ 系 统 ) 排列 前 5 名 计算 机 。 
Tianhe-1A 速度 得 分 最 高 ， 为 2. 57 Pflops ， 其 能 耗 为 4.01 MW。 排 名 第 二 的 Jaguar 能 耗 最 高 ， 为 
6.9 MW。 排 名 第 四 的 Tsubame 系统 能 耗 最 少 , 为 1.5 MW， 并 且 具 有 和 Nebulae 系统 差不多 的 速 
度 性 能 。 可 以 定义 性 能 /能 耗 的 比率 来 协调 这 两 个 指标 。Top500 绿色 排名 根据 超级 计算 机 的 能 源 
利用 率 对 其 进行 排名 。 此 图 显示 使 用 混合 CPU/GPU 体系 结构 将 会 消耗 较 少 的 能 源 。 
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图 2-3 前 5 名 超级 计算 机 的 能 耗 和 性 能 (2010 年 11 A) 
注 : 由 www. top500. org[25] 和 B. Dally[101 提供。 
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2.2 计算 机 集群 和 MPP 体系 结构 


大 多 数 集群 关注 更 高 的 可 用 性 和 可 扩展 性 能 。 集 群 系统 由 Microsoft Wolfpack 和 Berkeley NOW 
演变 成 SGI Altix 系列 、IBM SP 系列 和 IBM Roadrunner, NOW 是 加 州 大 学 伯克利 分 校 的 研究 项 目 ， 
BERR UNIX 工作 站 集群 化 的 新 机 制 。 大 多 数 集群 使 用 商用 网 络 ， 例 如 千 兆 以 太 网 、Myrinet 交 
换 或 者 InfiniBand 网 络 ， 连 接 计算 和 存储 节点 。 集 群 化 趋势 从 支持 大 型 高 端 计算 机 系统 转变 为 大 
容量 桌面 或 桌 边 计算 机 系统 ， 这 正 符合 计算 机 工业 中 缩小 体积 的 发 展 趋势 。 
2. 2. 1 集群 组 织 和 资源 共享 

在 这 一 节 中 ， 我 们 将 讨论 基本 的 、 小 规模 的 个 人 计算 机 或 者 服务 器 集群 。 在 后 续 的 章节 中 ， 
我 们 将 讨论 如 何 构 建 大 规模 集群 与 MPP。 

2.2.1.1 基本 集群 体系 结构 

图 2-4 显示 了 建立 在 个 人 计算 机 或 工作 站 上 的 计算 机 集群 的 基本 体系 结构 。 该 图 展示 了 一 个 
由 商用 组 件 构建 的 简单 计算 机 集群 ， 并 且 集 群 完 全 支持 必需 的 单 系统 镜像 特征 和 高 可 用 性 能 力 。 
处 理 节点 均 为 商用 工作 站 、 个 人 计算 机 或 服务 器 。 这 些 商用 节点 能 够 很 方便 地 替换 或 升级 为 新 
一 代 硬 件 。 节 点 的 操作 系统 支持 多 用 户 、 多 任务 和 多 线程 应 用 程序 。 节 点 由 一 个 或 多 个 快速 商用 
网 络 连 接 ， 这 些 网 络 使 用 标准 通信 协议 ， 并 且 速 度 比 当前 以 太 网 TCP/IP 速度 高 两 个 数量 级 。 


O ARPA 
-o ( 单 系统 镜像 与 可 用 基础 设施 ) 














个 人 计算 机 / 个 人 计算 机 / 
工作 站 工作 站 


通信 软件 通信 软件 通信 软件 
网 络 接口 硬件 网 络 接口 硬件 网 络 接口 硬件 网 络 接口 硬件 
集群 互连网 络 /交换 


图 2-4 由 商用 硬件 、 软 件 、 中 间 件 和 网 络 组 件 构 成 的 计算 机 体系 结构 ， 支 持 HA 和 SSI 


网 卡 连接 到 节点 的 标准 WO 总 线 ( 例 如，PCI) 。 当 处 理 器 或 操作 系统 发 生 改 变 ， 只 需要 改 
变 驱动 软件 。 我 们 希望 在 节点 平台 之 上 建立 一 个 与 平台 无 关 的 集群 操作 系统 。 但 这 种 集群 操作 
系统 并 不 可 以 商用 ， 我 们 可 以 在 用 户 空间 部 署 一 些 集群 中 间 件 来 粘 合 所 有 的 节点 平台 。 中 间 件 
能 够 提供 高 可 用 的 服务 。 单 系统 镜像 层 提供 单一 人 口 、 单 一 文件 层次 、 单 一 控制 点 和 单一 作业 管 
理 系 统 。 单 内 存 可 由 编译 库 或 运行 库 辅 助 实现 。 单 进程 空间 并 不 是 必需 的 。 

一 般 来 说 ， 理 想 中 的 集群 包含 三 个 子 系统 。 首 先 ， 传 统 的 数据 库 和 OLTP 监视 器 为 用 户 提供 
一 个 使 用 集群 的 桌面 环境 。 在 运行 串 行 用 户 程序 之 外 ， 集 群 使 用 PVM、MPI 和 OpenMP， 同 时 支 
持 基 于 标准 语言 和 通信 库 的 并 行程 序 。 编 程 环 境 还 包括 调试 、 仿 形 ( profiling) 、 监 测 等 工具 。 用 
户 界 面子 系统 需要 综合 Web 界面 和 Windows GUI 的 优点 。 集 群 还 应 该 提供 不 同 编程 环境 、 作 业 
管理 工具 、 超 文本 的 用 户 友好 链接 和 搜索 支持 ， 使 得 用 户 可 以 在 计算 集群 中 很 容易 获得 帮助 。 
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工作 站 


通信 软件 


个 人 计算 机 / 
工作 站 





















52 ”第 一 部 分 “系统 建 模 、 集 群 化 和 虚拟 化 


2.2.1.2 集群 资源 共享 

小 节点 集群 的 发 展 将 会 提高 计算 机 销量 ， 同 时 集群 化 也 增进 了 可 用 性 及 性 能 。 这 两 个 集群 
化 目标 并 不 一 定 是 冲突 的 。 部 分 高 可 用 性 集群 使 用 硬件 宛 余 来 扩展 性 能 。 集 群 节点 的 连接 可 以 
采用 图 2-5 所 示 的 三 种 方式 之 一 。 大 多 数 的 集群 采用 不 共享 体系 结构 ， 这 些 集群 中 的 节点 通过 
LO 总 线 连接 。 ETE E T E ee 
节点 可 以 接管 。 

图 2-5a 所 示 的 不 共享 结构 通过 以 太 网 等 局 域 网 简单 连接 两 个 或 更 多 的 自主 计算 机 。 图 2-5b 
所 示 的 是 共享 磁盘 集群 。 这 类 结构 是 大 多 数 商 业 集群 所 需要 的 ， 可 以 在 节点 失效 的 情况 下 实现 
恢复 。 共 享 磁盘 能 存储 检查 点 文件 或 关键 系统 镜像 ， 从 而 提高 集群 的 可 用 性 。 如 果 没 有 共享 磁 
盘 ， 就 无 法 在 集群 中 实现 检查 点 机 制 、 回 滚 恢复 、 失 效 备 援 和 故障 恢复 。 图 2-5c 所 示 的 共享 内 
存 集群 实现 起 来 十 分 困难 。 节 点 由 可 扩展 一 致 性 接口 (Scalable Coherence Interface, SCI) 环 连 
接 ，SCI 通过 NIC 模块 连接 每 个 节点 的 内 存 总 线 。 在 其 他 两 种 结构 中 ， 它 们 之 间 是 通过 LO 总 线 
连接 的 ， 内 存 总 线 工 作 频 率 高 于 IO 总 线 。 





图 2-5 连接 集群 节点 的 三 种 方式 (P/C: 处 理 器 和 缓存 ，M: 内 存 ; D: 磁盘 ; NIC: WE; 
MIO: 内 存 -IO HF) 
iż: 由 Hwang 和 Xu 提供 [14] 。 


目前 还 没有 广 为 接受 的 内 存 总 线 标 准 ， 但 是 有 IO 总 线 的 标准 ， 常 用 的 标准 为 PCI IO 总 线 
标准 。 因 此 ， 如 果 使 用 网 卡 连接 更 快 的 以 太 网 与 PCI 总 线 ， 应 当 保证 该 网 卡 可 用 于 使 用 PCI 作为 
VO 总 线 的 其 他 系统 。LO 总 线 相 较 于 内 存 总 线 发 展 得 非常 缓慢 。 考 虑 一 个 使 用 PCI 总 线 连 接 的 
集群 。 当 处 理 器 升级 时 ， 互 连 与 网 卡 并 不 需要 改变 ， 只 要 新 系统 仍然 使 用 PCI。 在 一 个 共享 内 存 
的 集群 中 ， 改 变 处 理 器 意味 着 需要 重新 设计 节点 板 和 网 卡 。 

2. 2.2 节点 结构 和 MPP 封装 

在 构建 大 规模 集群 或 者 MPP 系统 时 ， 集 群 节点 分 为 两 类 : 计算 节点 和 服务 节点 。 计 算 节点 
主要 大 量 用 于 大 规模 搜索 或 并 行 浮 点 计算 。 服 务 节点 可 以 使 用 不 同 的 处 理 器 来 处 理 IO、 文 件 访 
问 和 系统 监控 。 在 MPP 集群 中 ， 计 算 节 点 占 系 统 成 本 的 主要 部 分 ， 因 为 在 单个 大 型 集群 系统 中 ， 
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计算 节点 的 个 数 可 能 是 服务 节点 的 1 000 倍 。 表 2-3 中 介绍 了 两 种 具有 代表 性 的 计算 节点 结构 : 
同 构 设计 和 混合 节点 设计 。 

以 往 ， 大 多 数 MPP 采取 同 构 体 系 结构 ， 连 接 大 量 相 同 的 计算 节点 。2010 Æ, Cray XTS Jaguar 
系统 由 224 162 个 AMD Opteron 处 理 器 组 成 ， 其 中 每 个 处 理 器 有 6 个 核 。Tianhe-1A 采用 混合 节点 
设计 ， 每 个 计算 节点 有 2 个 Xeon CPU 和 2 个 AMD GPU, GPU 可 以 用 特殊 浮 点 加 速 器 替代 。 同 构 
节点 设计 使 得 编程 和 系统 维护 变 得 容易 。 

例 2.1 IBM Blue Gene/L 系统 的 模块 化 封装 

Blue Gene/L 是 由 IBM 和 Lawrence Livermore 国家 实验 室 联合 开发 的 超级 计算 机 。 该 系统 是 顶 
尖 的 日 本 地 球 模拟 器 ， 从 2005 年 开始 运行 ， 以 136Tflops 的 速度 在 Top500 名 单 中 排名 第 一 。 到 77 
2007 年 ， 该 系统 升级 至 478 Tflops 的 速度 。 图 2-6 通过 分 析 Blue Gene 系列 的 体系 结构 ， 揭 示 了 | 78 
可 扩展 MPP 系统 的 模块 化 结构 。 通 过 模块 化 封装 ，Blue Gene/L 由 处 理 器 芯片 逐 层 构建 成 64 个 
物理 机 架 。 该 系统 由 65 536 个 节点 构建 ， 每 个 节点 有 2 个 PowerPC 449 FP2 处 理 器 。 这 64 个 机 架 
通过 巨大 的 三 维 64 x32 x32 环 网 络 连 接 。 图 


( 64 个 机 柜 ，64 x 32 x 32) 
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(32 个 节点 板 ， 


8x8x16) 
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图 2-6 IBM Blue Gene/L 5 个 层次 上 的 模块 化 封装 
注 : W N. Adiga 等 人 提供 [1 。 


图 中 的 左下 角 是 一 个 双核 处 理 器 芯片 。 两 个 芯片 安置 在 同一 个 计算 机 卡 中 。16 个 计算 机 卡 
(32 个 芯片 或 64 个 处 理 器 ) 安装 在 一 个 节点 板 中 。32 个 节点 板 由 8 x8 x16 环 相互 连接 组 成 机 柜 
箱 。 最 后 ，64 个 机 柜 (机 架 ) 组 成 右上 角 的 整个 系统 。 该 封装 图 显示 的 是 2005 年 的 配置 。 客 户 
可 以 选择 任意 规模 来 满足 他 们 的 计算 需求 。Blue Gene 集群 通过 保护 本 地 失效 和 检查 机 制 来 确保 
内 置 的 可 测试 性 和 可 恢复 性 ， 从 而 实现 可 扩展 性 、 可 靠 性 ， 同 时 集群 通过 故障 位 置 的 划分 与 隔离 
实现 了 可 服务 性 。 
2.2.3 集群 系统 互 连 

2.2.3.1 高 带宽 互 连 

表 2-4 比较 了 4 种 高 带宽 系统 之 间 的 互 连 。2007 年 ， 以 太 网 连接 的 速度 为 1Gbps， 同 时 最 快 
的 InfiniBand 连接 可 以 达到 30 Gbps 的 速度 。Myrinet 和 Quadrics 的 性 能 在 以 上 两 者 之 间 。MPI 延 
述 表 示 了 远程 消息 传递 的 状态 。 这 4 种 技术 能 够 实现 任意 的 网 络 拓扑 结构 ， 包 括 纵横 交换 、 胖 树 
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和 环 状 网 络 。InfiniBand 的 连接 速度 最 快 ， 但 是 费用 也 最 高 。 以 太 网 仍 是 最 经 济 有 效 的 选择 。 超 
过 1 024 个 节点 的 集群 互 连 的 两 个 例子 将 在 图 2-7 和 图 2-9 中 介绍 。 图 2-8 将 会 比较 5 种 集群 互 连 
的 普及 程度 。 

表 2-4 4 种 集群 互 连 技 术 的 比较 (2007 年 ) 
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图 2-7 分 歌 搜索 引擎 集群 体系 结构 
注 ; 由 谷歌 公司 提供 [61 。 

例 2.2 谷歌 搜索 引 欧 集群 中 的 纵横 交换 

食 歌 的 很 多 数据 中 心 使 用 低 成 本 个 人 计算 机 引 汐 集群 。 这 些 集群 主要 用 于 谷歌 Web 搜索 业 
务 。 图 2-7 显示 了 一 个 谷歌 集群 通过 两 个 128 x128 以 太 网 交换 机 连接 40 台 个 人 计算 机 引擎 机 
架 。 每 个 以 太 网 交换 机 可 以 处 理 128 个 带宽 为 1Cbps 的 以 太 网 链接 。 一 台 机 架 上 有 80 台 个 人 计 
算 机 。 这 是 一 个 早期 的 3 200 台 个 人 计算 机 的 集群 。 谷 歌 的 搜索 引擎 集群 具有 比 这 多 得 多 的 节 
点 。 现 在 谷歌 的 服务 器 集群 是 由 货柜 车 安装 在 数据 中 心 的 。 

两 个 交换 机 用 于 提高 集群 的 可 用 性 。 即 使 其 中 一 个 交换 机 不 能 提供 个 人 计算 机 间 的 连接 ， 
集群 仍 可 以 正常 工作 。 交 换 机 的 前 端 通过 2. 4Gbps 的 OC12 连接 到 互联 网 ， 与 附近 数据 中 心 网 络 
的 连接 则 采用 622Mbps 的 0C12。 如 果 0C48 连接 失效 ， 集 群 仍 然 可 以 通过 0C12 连接 到 外 界 。 因 
此 ， 谷 歌集 群 避 免 了 单 点 失效 现象 。 a 

2.2.3.2 系统 互 连 共 享 

图 2-8 显示 了 从 2003 年 到 2008 年 Top500 系统 中 大 规模 系统 互 连 的 分 布 情况 。 千 兆 位 以 太 网 
因为 低 成 本 及 符合 市 场 需求 而 最 受 欢 迎 ，InfiniBand 网 络 由 于 其 高 带宽 性 能 而 用 于 150 个 系统 。 
Gray 互 连 是 专 为 Gray 系统 所 设计 的 。 到 2008 年 ，Myrinet 和 Quadrics 网 络 的 使 用 大 幅 下 降 。 
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图 2-8 Top500 系统 高 带宽 互 连 的 分 布 情况 (2003 一 2008) 
注 ， 摘 自 www. top500. org[25] 。 

例 2.3 理解 InfiniBand RRB” 

InfiniBand 是 基于 交换 的 点 对 点 互 连 体 系 结构 。 大 型 InfiniBand 为 分 层 结 构 ， 其 互 连 支持 分 布 
式 通 信 中 的 虚拟 接口 结构 (Virtual Interface Architecture, VIA). InfiniBand 交换 和 连接 能 够 组 成 
任何 拓扑 结构 。 其 中 常见 的 有 纵横 交换 、 胖 树 和 环 状 网 络 。 图 2-9 展示 了 InfiniBand 网 络 的 分 层 
结构 。 根 据 表 2-5， 在 公布 的 大 规模 系统 中 ，InfiniBand 提供 了 最 快速 的 连接 与 最 高 速 的 带宽 。 然 
而 ，InfiniBand 网 络 的 成 本 在 这 4 种 互 连 技术 中 最 高 。 







其 他 Infiniband 子 网 
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图 2-9 InfiniBand 系统 构造 在 典型 高 性 能 计算 机 集群 中 的 应 用 
iż: 由 Celebioglu 等 人 提供 [8 。 
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每 个 端点 可 能 是 存储 控制 器 、 网 卡 (NIC) 或 者 连接 主机 系统 的 接口 。 主 机 通道 适 配 硕 
(Host Channel Adapter，HCA) 通过 标准 外 设 组 件 互 连 (Peripheral Component Interconnect，PCI)、 
扩展 PCI (PCI-X) 或 者 PCI 专用 总 线 提供 主机 接口 ， 连 接 到 主机 处 理 器 。 每 个 HCA 都 至 少 有 一 
个 InfiniBand 端口 。 目 标 通道 适配器 (Target Channel Adapter , TCA) 使 得 [LO 设备 可 以 装载 在 
网 络 中 。TCA 包括 一 个 LO 控制 器 ， 使 用 特定 的 设备 协议 〈 如 SCSI) 、 光 纤 通 道 或 以 太 网 。 该 体 
系 结构 可 以 很 容易 应 用 于 由 上 千 台 甚至 更 多 的 主机 互 连 构成 的 大 规模 集群 。 集 群 应 用 中 的 
InfiniBand 相关 内 容 ， 可 以 参见 文献 [8] 。 | 
2.2.4 硬件 、 软 件 和 中 间 件 支持 

实际 上 ， 集 群 中 的 SSI 和 HA 的 目标 并 不 是 免费 。 它 们 必须 有 相应 的 硬件 、 软 件 、 中 间 件 以 
及 操作 系统 扩展 的 支持 。 硬 件 设计 和 操作 系统 扩展 中 的 改变 需 由 制造 商 完成 。 硬 件 和 操作 系统 
支持 对 于 普通 用 户 可 能 费用 过 高 。 然 而 ， 编 程 水 平 对 于 集群 用 户 却 是 一 个 不 小 的 负担 。 因 此 ， 应 
用 层 上 中 间 件 支持 的 实现 费用 是 最 少 的 。 如 图 2-10 所 示 的 例子 ， 在 一 个 典型 的 Lin 集群 系统 
中 ， 中 间 件 、 操 作 系 统 扩 展 和 硬件 支持 需要 达成 高 可 用 性 。 


IP 包 应 用 程序 





图 2-10 ”用 于 支持 由 CPU 和 GPU 组 成 的 Linux 集群 系统 的 大 规模 并 行 与 高 可 用 的 中 间 件 、 
Linux 扩展 和 硬件 

接近 用 户 程序 端 时 ， 中 间 件 封装 在 集群 管理 级 执行 : 可 用 于 故障 管理 ， 并 支持 失效 备 援 和 故 
障 恢复 ， 这 将 在 2. 3. 3 节 讨 论 。 另 一 个 特征 是 使 用 失效 检测 与 恢复 及 包 交 换 实现 高 可 用 性 。 如 图 
2-10 中 间 位 置 所 示 ， 我 们 需要 修改 Linux 操作 系统 来 支持 高 可 用 性 ， 同 时 需要 特定 的 驱动 支持 高 
HRH, VO 和 硬件 设备 。 如 图 2-10 底部 所 示 ， 我 们 需要 特定 的 硬件 来 支持 热 交 换 设 备 和 提供 
路 由 接口 。 在 接 下 来 的 章节 ， 我 们 将 讨论 不 同 的 支持 机 制 。 
2.2.5 大 规模 并 行 GPU 集群 

商用 GPU 成 为 数据 并 行 计 算 的 高 性 能 加 速 器 。 现 代 GPU 芯片 的 每 个 芯片 包含 上 百 个 处 理 


[83 ] 器 。 基 于 2010 ERRE, A CPU 芯片 可 以 进行 1Tflops 单 精度 (Single-Precision, SP) 计算 和 


超过 80Gflops 双 精 度 (Double- Precision ，DP) 计算 。 目 前 ， 优 化 高 性 能 计算 的 GPU 包括 4GB 的 
板 上 内 存 ， 并 有 持续 100GB/s 以 上 内 存 带 宽 的 能 力 。GPU 集群 的 构建 采用 了 大 量 的 CPU 芯片 。 
在 一 些 Top500 系统 中 ，GPTU 集群 已 经 证 实 能 够 达到 Pflops 级 别 的 性 能 。 大 多 数 GPU 集群 由 同 构 
GPU 构建 ， 这 些 GPU 具有 相同 的 硬件 类 型 、 制 造 和 模型 。GPU 集群 的 软件 包括 操作 系统 、GPU 
驱动 和 集群 化 API， 如 MPI。 


第 2 章 可 扩展 并 行 计算 集群 ”57 


GPU 集群 的 高 性 能 主要 归功 于 其 大 规模 并 行 多 核 结构 、 多 线程 浮 点 算术 中 的 高 吞吐 量 ， 以 
及 使 用 大 型 片上 缓存 显著 减少 了 大 量 数据 移动 的 时 间 。 换 句 话 说 ，GPU 集群 比 传统 的 CPU 集群 
具有 更 好 的 成 本 效益 。GPU 集群 不 仅 在 速度 性 能 上 有 巨大 飞 既 ， 而 且 显 著 降 低 了 对 空间 、 能 源 
和 冷却 的 要 求 。GPU 集群 相 较 于 CPU 集群 ， 能 够 在 使 用 较 少 操作 系统 镜像 的 情况 下 正常 工作 。 
在 电力 、 环 境 和 管理 复杂 性 方面 的 降低 使 得 GPU 集群 在 未 来 高 性 能 计算 应 用 中 非常 有 吸引 力 。 

2.2.5.1 Echelon GPU 芯片 设计 

Al 2-11 展示 了 一 种 未 来 的 CPU 加 速 器 体系 结构 ， 该 体系 结构 被 建议 用 于 为 百 万 兆 级 计算 服 
务 构建 的 NVIDIA Echelon GPU 集群 。Echelon 项 目 由 NVIDIA 的 Bill Dally 领导 ， 并 在 善 适 高 性 能 
计算 (Ubiquitous High-Performance Computing, UHPC) 计划 中 ， 得 到 美国 国防 部 高 级 研究 计划 局 
(DARPA) 的 部 分 资助 。 该 GPU 设计 中 ， 单 个 芯片 包含 1 024 个 流 核 和 8 个 延迟 优化 类 CPU 核 
〈 称 为 延迟 处 理 器 ) 。8 个 流 核 组 成 流 多 核 处 理 器 (Stream Multi-processor, SM), 128 个 多 核 处 理 
器 组 成 Echelon GPU 芯片 。 


至 片 外 DRAM 至 网 络 路 由 器 





图 2-11 实现 Echelon 系统 的 20Tflops 和 1. 6TB/s 内 存 带 宽 的 GPU 芯片 设计 
iz; 由 Bill Dally 提供 [10] ， 经 授权 使 用 。 


每 个 多 核 处 理 器 被 设计 为 含有 8 个 处 理 器 核 ， 可 以 达到 160Gflops 的 峰值 速度 。 每 个 芯片 包 
含 128 个 流 多 核 处 理 器 ， 可 以 达到 20. 48Tflops 的 峰值 速度 。 这 些 节点 通过 芯片 网 络 (Network on 
Chip, NoC) 连接 到 1024 个 静态 随机 存储 器 (12 caches ) ， 每 个 缓存 为 236KB。 内 存 控制 器 
(Memory Controller, MC) 用 来 连接 芯片 外 动态 随机 存储 器 (DRAM) 和 网 络 接口 (Network 
Interface，NI) ， 扩 展 了 CPU 集群 的 层次 规模 ， 如 图 2-12 所 示 。 在 撰写 本 节 内 容 时 ，Echelon 只 是 
一 个 研究 项 目 。 经 过 Bill Dally 的 允许 ,我 们 出 于 学 术 目 的 展示 了 该 设计 ， 阅 明 如 何 探索 众 核 
GPU 技术 以 达成 未 来 CPU 技术 中 的 百 万 兆 级 计算 ， 从 而 实现 未 来 全 面 的 百 万 兆 级 计算 。 

2.2.5.2 GPU 集群 组 件 

GPU 集群 通常 是 一 个 异 构 系统 ， 包 含 三 个 主要 组 件 : CPU 主机 节点 、GPU 节点 和 它们 之 间 
的 集群 互 连 。GPU 节点 由 通用 目的 GPU 组 成 ， 被 称 为 GCPCPU， 以 完成 数值 计算 。 主 机 节点 控制 
程序 的 执行 。 集 群 互 连 控制 节点 之 了 间 的 通信 。 为 了 保证 性 能 ， 多 核 GPU 需要 提供 充足 的 高 带宽 
网 络 和 内 存 数据 流 。 主 机 内 存 应 该 被 优化 ， 从 而 能 匹配 GPU 芯片 上 的 缓存 带宽 。 图 2-12 展示 了 
计划 中 的 Echelon GPU 集群 ， 该 集群 使 用 图 2-11 所 示 的 GPU 芯片 作为 组 成 块 ， 并 由 层次 结 梅 网 
络 互 连 。 

2.2.5.3 Echelon GPU 集群 体系 结构 

Echelon 系统 层次 体系 结构 如 图 2-12 AR, BW Echelon 系统 由 六 个 机 柜 组 成 ， 分 别 标 记 为 
Cy, Ci, +, Cyo 每 个 机 柜 有 16 个 计算 模块 ， 分 别 标记 为 M,,M,，…，M,s。 每 个 计算 模块 由 8 
个 GPU 节点 构成 ， 分 别 标记 为 N,N,，…，N,。 每 个 GPU 节点 是 最 内 层 的 块 ， 如 图 2-12 所 示 ， 
标记 为 PC (细节 见 图 2-11) 。 每 个 计算 模块 可 以 达到 160Tflops 和 2TB 内 存 上 12. 8TB/s 的 性 能 。 
单个 机 柜 可 容纳 128 个 GPU 节点 或 16 000 个 处 理 器 核 。 因 此 ， 每 个 机 柜 可 以 提供 32TB 内 存 上 
2. 6Pflops 的 性 能 及 20STB/s 的 带宽 ， 这 六 个 机 柜 通 过 光纤 晴 晓 网 络 互 连 。 
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2-12 ”由 GPU 层次 网 络 构成 的 NVIDIA Echelon 系统 的 体系 结构 ， 其 中 每 个 机 柜 可 以 提供 
2. 6Pflops 的 性 能 ， 至 少 需 要 N = 400 个 机 柜 才 能 实现 所 需 的 Eflops 性 能 
注 ; 由 Bill Dally 提供 [10] ， 经 授权 方 可 使 用 。 


为 了 达到 Eflops 级 别 的 性 能 ,我 们 至 少 需要 使 用 N=400 个 机 柜 。 换 名 话说 ， 百 万 兆 级 系统 
需要 在 400 个 机 柜 中 有 327 680 个 处 理 器 核 。Echelon 系统 获得 自 感知 操作 系统 和 运行 时 系统 的 支 
持 ， 同 时 由 于 其 被 设计 为 保护 局 部 性 ， 因 此 支持 编译 器 和 自动 调谐 器 。 目 前 ，NVIDIA Fermi 
(GF110) 芯片 已 包含 512 个 流 处 理 器 ， 因 此 Echelon 设计 大 约 快 25 倍 。 采 用 post- Maxwell 
NVIDIA GPU 计划 的 Echelon 很 有 可 能 在 2013 ~ 2014 年 出 现 。 

2.2.5.4 CUDA 并 行 编程 

CUDA (Compute Unified Device Architecture， 计 算 统一 设备 体系 结构 ) 由 NVIDIA 开发 ， 提 供 
并 行 计算 体 系 结构 。CUDA Æ NVIDIA GPU 中 的 计算 引擎 ， 允 许 开 发 者 通过 标准 程序 语言 访问 。 
程序 员 可 以 使 用 NVIDIA 扩展 和 受 限 的 CUDA Co CUDA C 通过 PathScale Open64 C 编译 器 编译 ， 
可 以 在 大 量 GPU 核 上 并 行 执行 。 例 2.4 体现 了 在 并 行 处 理 中 使 用 CUDA C 的 好 处 。 

例 2.4 在 GPU 上 使 用 CUDA C 并 行 化 SAXPY 运行 

SAXPY 是 人 矩阵 乘法 中 频繁 执行 的 内 核 操作 。 它 本 质 上 使 用 重复 乘法 和 加 法 操作 来 产生 两 个 
长 向 量 的 点 积 。 下 列 saxpy_serial 程序 采用 了 标准 C 代码 。 该 代码 只 适用 于 单 处 理 器 核 的 串 行 
执行 。 | 

Void saxpy_serial (int n, floata, float*x, float * 

{ for (inti =0; i<n; +i), y[i] =a*x[i]+y[i] } 


// Invoke the serial SAXPY kernel 
saxpy_serial (n, 2.0, x, y); 


下 列 saxpy_paral lel 程序 使 用 CUDA C 代码 编写 ， 可 以 在 GPU 芯片 的 多 处 理 器 核 上 的 256 个 
线程 / 块 中 并 行 执行 。 需 要 注意 的 是 , n 个 块 由 nm 个 处 理 器 核 控 制 ， 其 中 m 可 以 数 以 百 计 。 
_global__void saxpy_parallel (int n, float a, float*x, float *y) 
{ Int i = blockIndex.x*blockDim.x + threadIndex.x; if (i <n) y Li] =a*xLi]+yLi] } 


// Invoke the parallel SAXPY kernel with 256 threads/block int nblocks = (n+ 255)/256;: 
saxpy_parallel <<< nblocks, 256 >>> (n, 2.0, x, y); 
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这 是 一 个 使 用 CUDA C 的 很 好 的 例子 ， 它 使 用 CUDA GPGPU 作为 基本 部 分 实现 了 多 核 和 多 
线程 处 理 器 集群 上 的 大 规模 并 行 开 发 。 

2.2.5.5 CUDA 编程 接口 

CUDA 体系 结构 共享 一 系列 计算 接口 ， 其 有 两 个 竞争 者 : Khronos Group 的 开放 计算 语言 
(Open Computing Language) 和 微软 的 直接 计算 (DirectCompute)。 第 三 方 包装 也 适用 于 Python, 
Perl, FORTRAN, Java, Ruby, Lua, MATLAB 和 IDL 的 使 用 。CUDA 已 用 于 加 速 计算 生物 学 、 密 
码 学 等 领域 中 一 个 数量 级 以 上 的 非 图 形 应 用 。 一 个 很 好 的 例子 是 BOINC 分 布 式 计算 客户 端 。 
CUDA 同时 提供 了 低级 API 和 更 高 级 API, G8X 系列 之 后 的 所 有 NVIDIA GPU 都 采用 了 CUDA, 
包括 GeForce, Quadro 和 Tesla 系列 。NVIDIA 声明 ， 由 于 二 进 制 兼容 性 ， 为 GeForce 8 系列 所 做 的 
程序 开发 无 需 任何 改动 ， 就 可 以 继续 用 于 所 有 未 来 NVIDIA 显卡 上 。 

2.2.5.6 CUDA 使 用 趋势 

Tesla 和 Fermi 是 基于 CUDA 体系 结构 分 别 在 2007 年 和 2010 年 发 布 的 两 代 产 品 。CUDA 3.2 
版 在 2010 年 用 于 单一 GPU 模块 。 新 的 CUDA 4. 0 版 将 解决 多 个 GPU 使 用 共享 内 存 的 统一 虚拟 地 
址 空间 问题 。 下 一 代 NVIDIA GPU 将 会 是 开 普 勒 设计 ， 以 支持 C ++ 。Fermi 的 双 精 度 浮 点 运算 峰 
值 性 能 是 Tesla GPU 的 8 倍 (5.8 Gflops/W 对 0.7 Gflops/W)。 目 前 ，Fermi 已 具有 512 个 CUDA 
核 ， 共 30 亿 个 晶体 管 。 

CUDA GPU 和 Echelon 系统 的 未 来 应 用 可 能 包括 以 下 方面 : 

© 地 球 外 智慧 生物 的 研究 (SETIG@ Home) 。 

。 预测 蛋白 质 天 然 构 成 的 分 布 式 运算 。 

o 基于 CT 和 MRI 扫描 图 像 的 药理 分 析 模 拟 。 

© 流体 动力 学 和 环境 统计 中 的 物理 模拟 。 

。 3D 图 形 加 速 、 密 码 学 、 压 缩 和 视频 文件 格式 的 转换 。 

。 通过 众 核 体 系 结构 中 的 虚拟 化 构建 单 芯片 云 计算 机 (SCC), 


2.3 计算 机 集群 的 设计 原则 


集群 设计 应 具有 可 扩展 性 和 可 用 性 。 在 这 一 节 中 , :我们 将 会 介绍 通用 目的 计算 机 和 协作 计 
算 机 集群 的 单 系统 镜像 、 高 可 用 性 、 容 错 和 回 滚 恢复 。 
2.3.1 单 系统 镜像 特征 

单 系统 镜像 指 的 并 不 是 驻 留 在 SMP 或 者 工作 站 的 内 存 中 的 操作 系统 镜像 的 单一 复制 。 相 反 ， 
它 是 关于 单一 系统 、 单 一 控制 、 对 称 性 和 透明 性 的 描述 ， 具 体 特征 如 下 : 

。 单一 系统 ”用户 将 整个 集群 作为 一 个 多 处 理 器 系统 。 用 户 可 以 选择 “使 用 5 个 处 理 器 执 
行 应 用 程序 ”， 这 不 同 于 分 布 式 系 统 。 
单一 控制 ”逻辑 上 ， 一 个 终端 用 户 或 系统 用 户 在 一 个 地 方 只 能 通过 单一 的 接口 使 用 服务 。 
例如 ， 用 户 提交 一 批 作业 至 队列 ; 系统 管理 员 经 由 一 个 控制 点 配置 集群 的 所 有 硬件 和 软 
件 组 件 。 
对 称 性 ”用户 可 以 从 任意 节点 使 用 集群 服务 。 换 句 话 说， 除了 受到 访问 权限 保护 的 部 分 ， 
所 有 集群 服务 和 功能 对 于 所 有 节点 和 所 有 用 户 是 对 称 的 。 
位 置 透 明 性 ”用户 并 不 了 解 什么 位 置 的 物流 设备 最 后 提供 了 服务 。 例 如 ， 用 户 可 以 使 用 
磁带 驱动 器 连接 到 任意 集群 节点 就 像 连接 到 本 地 节点 一 样 。 

使 用 单 系统 镜像 的 主要 目的 是 ， 可 以 使 用 、 控 制 和 维护 一 个 集群 如 同一 个 工作 站 。“ 单 一 ” 
这 个 词 在 “单一 系统 镜像 ”中 有 时 候 等 同 于 “总 体 ” 或 者 “中 央 ”。 例 如 ， 全 局 文件 系统 意味 
着 单一 文件 层级 ,用户 可 以 通过 任意 节点 访问 系统 。 单 点 控制 允许 操作 者 监控 和 配置 集群 系统 。 
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虽然 有 单一 系统 的 设想 ， 但 是 集群 服务 或 功能 往往 是 通过 多 种 组 件 的 协作 以 分 布 式 的 方式 实现 
的 。 单 系统 镜像 技术 的 一 个 主要 需求 (和 优势 ) 是 同时 提供 了 分 布 式 执行 的 性 能 优势 和 单一 镜 
像 的 易 用 人性。 

从 进程 P 的 角度 ,集群 中 的 节点 可 以 分 为 三 种 类 型 。 进 程 P 的 原始 节点 (home node) 是 创 
建 进程 的 节点 。 进 程 P 的 本 地 节点 是 进程 目前 所 在 的 节点 。 对 于 PP 来 说 ， 所 有 其 余 节 点 均 
为 远程 节点 。 可 以 根据 不 同 的 需求 配置 集群 节点 。 主 机 节点 通过 Telnet, rlogin, HA FIP 和 
HTTP 为 用 户 登 录 提 供 服务 。 计 算 节 点 执行 计算 作业 。1LO 节点 响应 IO 请 求 ， 如 果 一 个 集群 拥 
有 共享 磁盘 和 磁带 单元 ， 那 么 它们 通常 在 物理 上 连接 到 IO 节点 。 

每 个 进程 都 有 一 个 原始 节点 ， 这 在 进程 的 整个 生命 周期 中 是 固定 的 。 在 任意 时 间 ， 只 有 一 个 
本 地 节点 ， 该 节点 可 以 是 也 可 以 不 是 主机 节点 。 当 进程 迁移 时 ， 其 本 地 节点 和 远程 节点 可 能 发 生 
变化 。 一 个 节点 可 以 同时 提供 多 种 功能 。 例 如 ， 一 个 节点 在 同一 时 间 内 可 以 是 主机 节点 、L/O 节 
点 和 计算 节点 。 单 系统 镜像 的 描述 可 以 分 为 几 个 层次 ， 其 中 三 层 描 述 如 下 。 值 得 注意 的 是 ， 这 些 
BRU RHA ES. 

。 应 用 软件 层 ” 两 个 例子 是 并 行 Web 服务 器 和 各 种 并 行 数据 库 。 用 户 通过 应 用 程序 来 使 用 

单 系统 镜像 ， 甚 至 没有 意识 到 他 正在 使 用 的 是 一 个 集群 。 这 种 方法 需要 为 集群 修改 工作 
站 或 SMP 的 应 用 程序 。 

。 硬件 或 内 核 层 ”理想 情况 下 ， 单 系统 镜像 应 该 由 操作 系统 或 硬件 提供 。 遗 憾 的 是 ， 目 前 
这 还 没有 得 到 实现 。 此 外 ， 在 异 构 集群 上 提供 单 系统 镜像 是 极其 困难 的 ， 因 为 大 多 数 硬 
件 体 系 结构 和 操作 系统 是 专 有 的 ， 所 以 只 能 够 被 制造 商 使 用 。 

PAAR ”最 可 行 的 方法 是 在 操作 系统 内 核 之 上 建立 单 系统 镜像 层 。 这 种 方法 是 有 发 展 
前 景 的 ， 因 为 它 与 平台 无 关 ， 并且 不 需要 修改 应 用 程序 。 许 多 集群 作业 管理 系统 已 经 采 
用 了 这 种 方法 。 

集群 中 的 每 个 计算 机 有 自己 的 操作 系统 镜像 。 由 于 所 有 节点 计算 机 的 独立 操作 ， 因 此 一 个 
集群 可 以 显示 出 多 个 系统 镜像 。 决 定 如 何在 集群 中 合并 多 个 系统 镜像 ， 这 与 在 社区 中 调节 许多 
特征 到 单一 特性 一 样 困难 。 由 于 不 同 程度 的 资源 共享 ， 多 个 系统 可 以 被 整合 ， 从 而 在 不 同 的 操作 
水 平 上 实现 单 系统 镜像 。 

2.3.1.1 单一 入 口 

单 系统 镜像 (SSI) 包括 单一 人 口 、 单 文件 层次 、 单 一 WO 空间 、 单 一 网 络 机 制 、 单 一 控制 
点 、 单 一 作业 管理 系统 、 单 一 内 存 空间 和 单一 进程 空间 。 单 一 入 口 使 得 用 户 登 录 〔( 例 如， 通过 
Telnet, rlogin 或 HTTP) 集群 就 像 登录 一 个 虚拟 主机 一 样 ， 虽 然 该 集群 可 能 有 多 个 物理 主机 节点 
为 登录 会 话 服务 。 系 统 透明 地 分 配 用 户 登 录 和 连接 请 求 至 不 同 的 物理 主机 以 平衡 负载 。 集 群 可 以 代 
替 大 型 机 和 超级 计算 机 。 互 联网 集群 服务 器 上 ， 成 千 上 万 的 HTTP 或 FTP 请 求 可 能 同时 到 达 ， 建 立 
多 个 主机 的 单一 入 口 并 不 是 一 件 容易 的 事 。 许 多 问题 必须 得 到 解决 ， 下 面 只 是 部 分 问题 列表 : 

。 主 目录 用 户 的 主 目录 放 在 什么 位 置 ? 

e 认证 ”如何 认证 用 户 登 录 ? 

。 多 重 连接 如果 同一 个 用 户 重 复 登 录 了 几 次 相同 的 用 户 账户 ， 该 怎么 办 ? 

© 主机 失效 ”如 何 处 理 一 个 或 多 个 主机 失效 ? 

例 2.5 计算 机 集群 的 单一 入 口 实 现 

图 2-13 描述 了 如 何 实现 单一 入 口 。 集 群 中 的 4 个 节点 作为 接收 用 户 登 录 请 求 的 主机 节点 。 
尽管 图 中 只 显示 一 个 用 户 ， 但 数 以 千 计 的 用 户 能 以 相同 的 方式 连接 到 该 集群 。 当 用 户 登 录 集群 
时 ， 可 以 输入 标准 UNIX 命令 ,例如 telnet cluster. cs. hku. hk， 使 用 该 集群 系统 的 符号 名 称 。 m 

DNS 服务 器 翻译 符号 名 称 ， 并 返回 负载 最 轻 的 节点 IP 地 址 159. 226. 41. 150， 这 由 节点 主机 1 
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cluster.cs.hku.hk 域名 服务 器 
用 户 终端 | (DNS) 


连接 使 用 
159.226.41.150 


图 2-13 采用 负载 均衡 的 域名 服务 器 (DNS) 实现 单一 人 口 
JE; Wy Hwang 和 Xutt4] 提 供 。 


完成 。 用 户 在 接 下 来 登录 时 使 用 该 IP 地址 。DNS 服务 器 定期 从 主机 节点 收集 负载 信息 ， 从 而 做 
出 相关 的 负载 均衡 决策 。 在 理想 的 情况 下 ， 如 果 200 个 用 户 同时 登录 ， 登 录 会 话 将 平均 分 布 于 主 
机 ， 其 中 每 个 主机 有 50 个 会 话 。 这 使 得 单一 主机 的 能 力 达 到 原来 的 4 倍 。 

2.3.1.2 单 文件 层次 

在 本 书 中 ， 我 们 使 用 术语 “ 单 文件 层次 ”表示 单一 的 、 巨 大 的 文件 系统 镜像 ， 该 文件 系统 
镜像 透明 地 整合 本 地 和 全 局 磁盘 以 及 其 他 文件 设备 〈 例 如 ， 磁 带 ) 。 换 名 话说， 用 户 所 需 的 所 有 
文件 被 存储 在 根 目 录 “/” 的 一 些 子 目录 中 ， 可 以 通过 普通 UNIX 调用 (如 open, read 等 ) if 
问 。 这 不 能 与 工作 站 中 多 个 文件 系统 作为 根 目录 的 子 目 录 相 混淆 。 

单 文件 层次 的 功能 已 经 由 现 有 的 分 布 式 文件 系统 (如 NFS (Network File System， 网 络 文件 
系统 ) M AFS (Andrew File System, Andrew 文件 系统 ) ) 提供 了 一 部 分 。 从 进程 的 角 庆 来 看 ， 文 
件 能 够 存放 在 集群 中 的 三 种 不 同类 型 的 位 置 ， 如 图 2-14 所 示 。 


稳定 存储 〈 也 被 称 为 
持久 存储 、 全 局 存储 ) 





图 2-14 单 文件 层次 中 存储 的 三 种 类 型 。 实 线 表 示 进 程 P 可 以 访问 ， 虚 线 表示 P 可 能 被 允许 访问 
注 ; 由 Hwang foa Xul peko ， 


本 地 存储 是 进程 所 在 的 本 地 节点 上 的 磁盘 。 远 程 节点 上 的 磁盘 是 远程 存储 。 一 个 稳定 的 存 
储 需 要 满足 两 个 条 件 : 它 是 持续 的 ， 这 意味 着 数据 一 旦 写 人 稳定 存储 ， 将 会 保留 一 段 足够 长 的 时 
间 ( 例 如， 一 个 星期 )， 即 使 集群 关闭 ; 利用 元 余 和 定期 磁带 备份 ， 它 在 某 种 程度 上 是 容错 的 。 
图 2-14 中 使 用 了 稳定 存储 。 稳 定 存储 中 的 文件 称 为 全 局 文件 ， 同 理 ， 本 地 存储 中 的 文件 称 
为 本 地 文件 ， 远 程 存 储 中 的 文件 称 为 远程 文件 。 稳 定 存 储 可 由 一 个 集中 的 大 规模 RAID 磁盘 实 
现 ， 但 也 可 以 利用 分 布 式 集 群 节点 的 本 地 磁盘 实现 。 第 一 种 方法 由 于 使 用 大 规模 磁盘 ， 存 在 单 点 
失效 问题 和 潜在 性 能 瓶颈 。 第 二 种 方法 比较 难 实现 ， 但 是 可 能 会 更 经 济 、 更 有 效 、 更 可 用 。 在 许 
多 集群 系统 中 ， 按 照 惯 例 ， 系 统 允许 用 户 进 程 在 单 文件 层次 上 可 见 下 列 目 录 ; 传统 UNIX 工作 站 
中 常用 的 系统 目录 ， 如 /usr 和 /usr/local; 以 及 拥有 小 磁盘 配额 (1 ~ 20MB) 的 用 户主 目录 ~/， 
用 户 在 这 里 存放 代码 文件 和 其 他 文件 。 但 是 大 数据 文件 必须 存放 在 其 他 地 方 。 
。 全 局 目录 被 所 有 用 户 和 进程 共享 。 该 目录 拥有 若干 GB 的 大 磁盘 空间 。 用 户 能 够 在 这 里 存 
储 他 们 的 大 型 数据 文件 。 
。 在 集群 系统 中 ， 进 程 能 够 访问 本 地 磁盘 上 的 特定 目录 。 该 目录 具有 中 介 的 功能 ， 与 全 局 
目录 相 比 能 够 被 更 快 地 访问 。 [90] 
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2.3.1.3 文件 可 见 性 

术语 “可 见 性 ”在 这 里 意 昧 着 进程 能 够 使 用 fopen、fread 和 fwrite 等 传统 UNIX 系统 或 库 函 
数 访 问 文 件 。 值 得 注意 的 是 ,集群 中 有 多 个 本 地 擦 除 目 录 。 远 程 节点 的 本 地 擦 除 目录 不 在 单 文件 
层次 中 ， 对 进程 并 不 能 直接 可 见 。 但 用 户 进程 通过 指定 节点 名 和 文件 名 ， 使 用 rcp 等 命令 或 一 些 
特殊 库 函 数 仍 然 可 以 访问 这 些 目录 。 

“ 擦 除 ” 表 明 该 存储 用 来 作为 暂时 信息 存储 的 便签 本 。 本 地 擦 除 空间 的 信息 可 以 在 用 户 退 出 后 
丢弃 。 全 局 擦 除 空间 的 文件 通常 在 用 户 退 出 后 仍 被 保留 ， 但 是 如 果 在 一 段 预 定时 间 内 未 被 访问 ,将 
会 被 系统 删除 。 这 对 其 他 用 户 来 说 是 免费 的 磁盘 空间 。 周 期 的 长 短 可 由 系统 管理 员 设 定 ， 范 围 一 般 
从 一 天 到 几 个 星期 。 一 些 系 统 定期 或 在 删除 文件 之 前 ， 将 全 局 擦 除 空间 中 的 信息 备份 至 磁带 。 

2.3.1.4 单 文件 层次 支持 

人 们 希望 单 文件 层次 结构 具有 单 系统 镜像 属性 ， 文 件 系 统 被 重申 如 下 : 

。 单 文件 从 用 户 的 角度 看 ， 只 有 一 个 文件 层次 。 

。 对 称 性 ”用户 能 够 从 任意 节点 使 用 集群 服务 访问 全 局 存储 (例如 ，/scratch) 。 换 句 话 说， 

除了 受到 访问 权限 保护 的 情况 ， 对 于 所 有 节点 和 用 户 ， 所 有 文件 服务 和 功能 是 对 称 的 。 

。 EZR 用 户 并 不 知道 最 终 提供 服务 的 物理 设备 的 所 在 位 置 。 例 如 , 用户 可 以 使 用 

RAID 连接 任意 节点 就 像 连接 到 本 地 节点 一 样 ， 昌 然 在 性 能 上 可 能 会 存在 一 些 差异 。 

集群 文件 系统 应 该 维持 UNIX 语义 : 每 个 文件 操作 (fopen, fread, fwrite, fclose 等 ) 均 是 一 
个 事务 。 在 fwrite 修改 文件 之 后 ，fread 访问 该 文件 ，fread 应 该 获得 已 经 更 新 的 文件 。 然 而 ， 现 有 
的 分 布 式 文件 系统 并 不 完全 符合 UNIX 语义 ， 一 些 文件 系统 只 会 在 关闭 或 清除 时 更 新 文件 。 在 集 
群 中 组 织 全 局 存储 有 多 种 选择 。 一 种 极端 方法 是 使 用 具有 巨大 RAID 的 主机 作为 单一 文件 服务 
器 ， 该 方案 很 简单 ， 使 用 当前 软件 (如 NFS) 能 够 很 容易 实现 ,但 是 文件 服务 器 成 为 性 能 瓶颈 ， 
并 面临 单 点 失效 的 问题 。 另 一 种 极端 方法 是 利用 所 有 节点 的 本 地 磁盘 组 成 全 局 存储 ， 这 可 以 解 
决 单一 文件 服务 器 的 性 能 及 可 用 性 问题 。 

2.3.1.5 单一 IO、 网 络 和 内 看 空间 

为 了 实现 单 系 统 镜像 ， 我 们 需要 单一 控制 点 、 单 一 地 址 空间 、 单 一 作业 管理 系统 、 单 一 用 户 
接口 和 单一 进程 控制 ， 如 图 2-15 所 示 。 在 这 个 例子 中 ， 每 个 节点 恰好 有 一 个 网 络 连接 。4 个 节点 
中 的 两 个 节点 分 别 有 两 个 IO 附设 。 

单一 网 络 : 正确 设计 的 集群 应 该 表现 得 像 一 个 系统 《阴影 区 域 ) 。 换 句 话 说， 该 集群 就 如 同一 
个 具有 4 个 网 络 连接 和 4 个 IO 附设 的 大 规模 工作 站 。 任 意 节 点 上 的 任意 进程 能 够 使 用 任意 网 络 和 
IO 设备 ， 就 像 它 们 连接 在 本 地 节点 上 。 单 一 网 络 还 意味 着 任意 节点 能 够 访问 任意 网 络 连接 。 

单 点 控制 : 系统 管理 员 应 该 能 够 通过 单一 人 口 配 置 、 监 视 、 测 试 和 控制 整个 集群 和 每 个 独立 
的 节点 。 许 多 集群 通过 与 所 有 和 集群 节点 连接 的 系统 控制 台 来 辅助 实现 这 点 。 该 系统 控制 台 通 常 
与 外 部 局 域 网 (未 在 图 2-15 中 显示 ) 连接 ， 这 样 管理 员 能 够 在 局 域 网 的 任何 地 方 远 程 登 录 系统 
控制 台 ， 进 行 管理 员 的 工作 。 

值得 注意 的 是 ， 单 点 控制 并 不 意味 着 所 有 系统 管理 工作 必须 由 系统 控制 台 单 独 执行 。 实 际 
上 ， 很 多 管理 功能 分 布 在 集群 上 。 这 意味 着 管理 集群 不 应 该 比 管理 SMP 或 主机 困难 。 管 理 相关 
的 系统 信息 (如 各 种 配置 文件 ) 应 该 保存 在 一 个 逻辑 空间 中 。 管 理 员 使 用 图 形 工具 监控 集群 ， 
图 形 工具 显示 集群 的 完整 信息 ， 并 且 管 理 员 可 以 随意 放大 和 缩小 。 

在 构建 集群 系统 中 ， 单 点 控制 (或 单 点 管理 ) 是 最 富 挑战 性 的 课题 之 一 。 分 布 式 和 网 络 系 
统管 理 中 的 技术 能 够 被 转换 应 用 于 集群 。 由 于 网 络 管理 ,若干 实际 标准 已 经 得 到 发 展 。 简 单 网 络 
管理 协议 (Simple Network Management Protocol, SNMP) 是 其 中 的 一 个 例子 。 它 需要 一 个 整合 了 
可 用 支持 系统 、 文 件 系 统 和 作业 管理 系统 的 有 效 集群 管理 软件 包 。 
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单一 内 存 空间 : 单一 内 存 空间 为 用 户 提供 一 个 大 规模 集中 式 主 内 存 的 假象 ， 但 实际 上 可 能 
是 分 布 式 本 地 内 存 空间 的 集合 。PVP、SMP 和 DSM 在 这 方面 比 MPP 集群 优秀 ， 因 为 它们 允许 程 
序 利用 全 局 或 本 地 内 存 空间 。 测 试 集群 是 否 有 单一 内 存 空间 的 一 个 好 方法 是 ， 运 行 一 个 串 行 程 
序 ， 其 需要 的 内 存 空间 超过 任意 单个 节点 所 能 提供 的 。 

假设 图 2-15 中 的 每 个 节点 有 2GB 的 用 户 可 用 内 存 。 理 想 的 单一 内 存 镜 像 应 该 允许 该 集群 运 
行 需要 8GB 内 存 的 串 行 程序 。 这 使 得 集群 运行 时 如 同一 个 SMP 系统 。 为 了 实现 集群 上 的 单一 内 [92 | 
存 空间 ， 可 以 尝试 几 种 方法 。 其 中 一 种 方法 是 让 编译 器 将 应 用 程序 的 数据 结构 分 布 于 多 个 节点 
之 上 。 开 发 有 效 的 、 平 台 无 关 的 并 且 支 持 串 行 二 进 制 代码 的 单一 内 存 机 制 是 具有 挑战 性 的 任务 。 












节点 1 





图 2-15 具有 单一 网 络 连接 、 单 一 0 空间 、 单 一 内 存 和 单 点 控制 的 集群 
注 ， 由 Hwang 和 Xu 提供 [141 。 


单一 VO 地 址 空间 : 假设 集群 被 用 来 作为 一 个 Web 服务 器 。Web 信息 数据 库 分 布 在 两 个 
RAID 上 。 每 个 节点 启动 一 个 HTTP 后 台 程 序 处 理 来 自 网 络 连接 的 4 个 Web 请 求 。 单 一 IO 空间 
意味 着 任意 节点 能 够 访问 这 两 个 RAID。 假 设 大 多 数 请 求 来 自 于 ATM 网 络 。 如 果 节 点 3 具有 的 
HTTP 功能 可 以 分 布 到 所 有 的 4 个 节点 上 ， 这 将 是 有 益处 的 。 下 面 的 例子 介绍 了 RAID-x 体系 结 
构 ， 该 体系 结构 用 于 以 VO 为 中 心 的 集群 计算 。 

例 2.6 VO 中 心 集群 的 分 布 式 RAID 之 上 的 单一 1/O 空间 

Hwang 等 人 提出 一 种 分 布 式 磁盘 阵列 体系 结构 ， 该 体系 结构 用 来 建立 IO 中 心 集群 应 用 中 
的 单一 IO 空间。 图 2-16 显示 了 4 节点 Linux PC 集群 的 体系 结构 ， 其 中 三 个 磁盘 通过 SCSI RR 
连接 到 每 个 主机 节点 。 所 有 12 个 磁盘 形成 具有 单一 地 址 空间 的 完整 RAID-x。 换 句 话说， 所 有 个 
人 计算 机 可 以 访问 本 地 和 远程 磁 副 。 所 有 磁 冀 块 的 寻 址 机 制 是 水 平 交叉 的 。 正 交 剥 离 和 反射 使 
得 系统 中 可 能 有 与 RAID-1 等 效 的 能 力 。 

阴影 的 区 域 表示 空白 块 的 镜像 。 一 个 磁盘 块 和 它 的 镜像 通过 正 交 方 式 被 映射 在 不 同 的 物理 
磁盘 上 。 例 如 ，B。 位 于 磁盘 D bo B 的 镜像 Mo 位 于 磁盘 Do Don D D, 和 D 这 4 个 磁盘 分 
别 连 接 到 4 个 服务 器 上 ， 因 此 能 够 被 并 行 访问 。 任 意 单个 磁盘 失效 不 会 丢失 数据 块 ， 因 为 磁盘 的 
镜像 可 以 用 于 数据 恢复 。 所 有 磁盘 块 被 标注 相应 的 镜像 映射 。 基 准 测试 程序 实验 表明 该 RAID-x 
是 可 扩展 的 ， 并 且 能 够 在 任意 单个 磁盘 失效 后 恢复 数据 。 该 分 布 式 RAID-x 提高 了 集群 中 所 有 物 
BEE AATE/S REN RAO 带宽 。 | 

2.3.1.6 其 他 SSI 所 需 特征 

SSI 的 最 终 目 标 是 使 得 集群 如 同 台式 计算 机 一 样 易 于 使 用 。 下 面 是 SSI 额外 特征 ， 这 些 特 征 
存在 于 SMP 服务 器 中 : 

。 单一 作业 管理 系统 ”所 有 集群 作业 能 够 由 任意 节点 提交 到 单一 作业 管理 系统 。 

。 单一 用 户 接口 ”用户 通 过 单一 图 形 界 面 使 用 集群 。 这 适用 于 工作 站 和 个 人 计算 机 。 发 展 

集群 CUI 的 一 个 好 的 方向 是 利用 Web 技术 。 
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图 2-16 在 连接 到 集群 中 4 个 主机 的 12 个 分 布 式 磁 盘 之 上 具有 单一 Y0 空间 的 分 布 式 RAID 体系 


结构 (D, 表示 磁盘 i, B 表示 磁盘 块 j，M, 是 B 的 一 个 镜像 ，P/M 表示 处 理 器 /内 存 节 
点 ，CDD 表示 协作 磁盘 驱动 器 ) 


32: W Hwang, Jin 和 Ho 提供 [13] 。 


单一 进程 空间 ”各 节点 的 所 有 用 户 进程 形成 单一 进程 空间 ， 并 且 共 享 统一 进程 认证 机 制 。 
在 任意 节点 上 能 够 创建 进程 (如 通过 UNIX fork) 并 与 远程 节点 上 的 进程 通信 (如 通过 信 
号 、 管 道 等 )。 

SSI 集群 化 的 中 间 件 支持 ”如 图 2-17 所 示 ， 在 集群 应 用 的 三 个 层次 上 ， 中 间 件 支持 各 种 
SSI 特征 。 

管理 级 ”该 级 处 理 用 户 应 用 程序 ， 并 且 提 供 作 业 管理 系统 ， 如 CLUnix, MOSIX, Load 
Sharing Facility (LSF) 或 Codine。 

编程 级 ”该 级 提供 单一 文件 层次 (NFS、xFS、AFS、Proxy) 和 分 布 式 共享 内 存 (TreadMark、 
Wind Tunnel) 。 

实现 级 ”该 级 支持 单一 进程 空间 、 检 查 点 机 制 、 进 程 迁移 和 单一 IO 空间 。 这 些 特征 必 
须 与 集群 硬件 和 操作 系统 平台 结合 。 在 例 2.6 中， 分布 式 磁盘 阵列 、RAID-x 实现 了 单一 
IO 空间 。 


2.3.2 元 余 高 可 用 性 
当 设 计 重 棒 的 高 可 用 系统 时 ， 三 个 术语 经 常 - 起 使 用 ,可靠 性 、 可 用 性 和 可 服务 性 
( Reliability, Availability, and Serviceability，RAS)。 可 用 性 是 最 有 意义 的 概念 ， 因 为 它 综合 了 可 


en | me | | 
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用 户 应 用 程序 


作业 管理 系统 
(GLUnix, MOSIX, LSF, PBC) 


编程 级 
单 文件 层次 分 布 式 共 享 内 存 
(NFS, AFS, xFS, Proxy) ( treadmark, wind tunnel ) 
~ nn 实现 级 














集群 硬件 和 操作 系统 平台 


图 2-17 在 作业 管理 、 编 程 和 实现 级 上 集群 化 中 间 件 的 关系 





注 ; vy K. Hwang, H. Jin, C. L. Wang 和 ZXul16] 提 供 。 


靠 性 和 可 服务 性 的 概念 ， 定 义 如 下 : 
。 可 靠 性 ”根据 系统 不 发 生 故 障 的 运行 时 间 衡 量 。 
。 可 用 性 ”表示 系统 对 用 户 可 用 的 时 间 百 分 比 ， 即 系统 正常 运行 的 时 间 百 分 比 。 
。 可 服务 性 ”与 服务 系统 的 容易 程度 相关 ， 包 括 硬件 和 软件 维护 、 修 复 、 升 级 等 。 


RAS 需求 由 实际 的 市 场 需求 决定 。 最 近 的 Find/SVP 调研 总 结 了 世界 1 000 强 企业 中 的 下 列 
情形 : 计算 机 平均 每 年 发 生 9 次 故障 ， 平 均 每 次 故障 时 间 为 4 小 时 。 平 均 每 小 时 损失 的 收入 是 


82 500 美 元 。 


由 于 故障 过 程 中 可 能 造成 的 巨大 损失 ,许多 公司 都 在 努力 提供 24/365 可 用 的 系统 ， 


即 该 系统 每 天 24 小 时 ， 每 年 365 天 都 是 可 用 的 。 


2.3.2.1 


可 用 性 和 失效 率 


如 图 2-18 所 示 ， 计 算 机 系统 通常 在 发 生 故 障 前 会 运行 一 段 时 间 。 故 障 被 修复 后 ， 系 统 恢复 
正常 运行 ， 然 后 不 断 重复 这 个 运行 - 修复 周期 。 系 统 可 靠 性 由 失效 平均 时 间 (MTIF) 衡量 ， 该 时 195] 
间 指 的 是 系统 (或 系统 部 件 ) 发 生 故 障 前 正常 运行 的 平均 时 间 。 可 服务 性 的 度量 标准 是 平均 修复 时 


间 (MTTR), 


该 时 间 为 发 生 故 障 后 修复 系统 及 还 原 工作 状态 的 平均 时 间 。 系 统 可 用 性 定义 为 : 
可 用 性 = MTTF/ (MTTF + MTTR) (2-1) 


2.3.2.2 计划 停机 和 意外 失效 


学 习 RA 


S 时 ， 我 们 称 任意 使 得 系统 不 能 正常 执行 的 事件 为 失效 (failure), HE: 


。 意外 失效 ”由 于 操作 系统 崩溃 、 硬 件 失 效 、 网 络 中 断 、 人 为 操作 失误 以 及 断 电 等 而 引起 
的 系统 失效 。 所 有 这 些 被 简单 地 称 为 失效 ， 系 统 必须 修复 这 些 失 效 。 

。 计划 停机 系统 没有 被 损坏 ,但 是 周期 性 中 止 正常 运行 以 进行 升级 、 重 构 和 维护 。 系 统 
也 可 能 在 周末 或 假日 关闭 。 图 2-18 所 示 的 MTTR 是 关于 这 类 失效 的 计划 停工 时 间 。 


OK 失效 (故障 发 生 ) OK 
正常 操作 维护 时 间 
平均 失效 发 生 时 间 (MTTF ) 平均 维护 时 间 (MTTR ) 


图 2-18 计算 机 系统 的 执行 -修复 周期 


表 2-5 显示 了 几 种 具有 代表 性 的 系统 可 用 性 值 。 例 如 ， 传 统 工作 站 具有 99% 的 可 用 性 ， 意 味 
着 其 建立 和 运行 的 时 间 占 总 时 间 的 99% ,或 者 每 年 只 停机 3.6 天 。 可 用 性 的 乐观 定义 并 不 考虑 
计划 停机 时 间 ， 这 可 能 是 有 实际 意义 的 。 例 如 ， 许 多 超级 计算 机 设置 为 每 周 几 小 时 的 计划 停机 时 
间 ， 而 电话 系统 却 不 能 忍受 每 年 几 分 钟 的 停机 时 间 。 
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表 2-5 不 同类 型 计算 机 系统 的 可 用 性 
可 用 性 ( %) 每 年 停机 时 间 
3.6 天 
8.5 小 时 





故障 可 恢复 系统 
容错 系统 








2.3.2.3 暂时 性 失效 和 永久 性 失效 

很 多 失效 是 暂时 的 ， 它 们 短暂 出 现 然后 消失 。 处 理 这 类 失效 不 需要 更 换 任何 组 件 。 一 个 标准 
的 方法 是 回 滚 系 统 至 已 知 状态 ， 然 后 重新 开始 。 例 如 ， 我 们 通过 重启 计算 机 来 恢复 诸如 键盘 或 窗 
口 不 响应 等 暂时 性 失效 。 永 久 性 失效 不 能 通过 重启 来 修复 ， 必 须 维 修 或 更 换 某 些 硬 件 或 软件 组 
件 。 例 如 ， 如 果 系 统 硬 盘 坏 了 ， 重 启 也 不 能 恢复 正常 工作 。 

2.3.2.4 部 分 失效 和 整体 失效 

使 得 整个 系统 不 可 用 的 失效 称 为 整体 失效 。 如 果 系 统 在 一 个 较 低 的 水 平 仍 可 以 运行 ， 那 么 
只 影响 部 分 系统 的 失效 称 为 部 分 失效 。 提 高 可 用 性 的 关键 方法 是 系统 地 移 除 单 点 失效 ,使 得 失 
效 尽 可 能 是 部 分 失效 ， 因 为 硬件 或 软件 组 件 的 单 点 失效 会 影响 到 整个 系统 。 

例 2.7 SMP 和 计算 机 集群 的 单 点 失效 

Æ SMP (图 2-19a) 中 ,共享 内 存 、 操 作 系 统 镜像 和 内 存 总 线 均 为 单一 失效 点 。 咽 外 ,处理 
器 并 不 是 单一 失效 点 。 在 一 个 工作 站 集群 (图 2-19b) 中 ， 位 于 每 个 工作 站 的 多 操作 系统 镜像 通 
过 以 太 网 互 连 。 这 避免 了 SM 中 操作 系统 可 能 造成 的 单 点 失效 。 然 而 ,以 太 网 网 络 却 成 为 单一 
失效 点 ， 如 图 2-19c 所 示 ， 其 增加 了 高 速 网 络 ， 两 条 通信 路 径 消除 了 此 单 点 失效 。 
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a) SMP b ) 工作 站 集群 
高 速 网 络 以 太 网 
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a Pe ee | |e oa [ 以 太 网 
c) 双 网 络 集群 d) 共享 磁盘 集群 
图 2-19 SMP 和 三 个 集群 中 的 单 点 失效 (SPF) ， 由 a 到 d， 其 中 元 余 越 大 ， 消 除 的 单 点 失效 也 


越 多 

iż: 由 Hwang 和 Xul14] 提 供 。 

当 图 2-19b 和 图 2-19c 中 的 茶 个 节点 失效 时 ,不仅 该 节点 上 的 应 用 均 失 效 ， 而 且 节 点 数据 也 
无 法 使 用 ， 直 至 节点 被 修复 。 图 2-19d 中 的 共享 磁盘 集群 为 该 情况 提供 了 一 种 补救 方案 。 系 统 在 
共享 磁盘 上 存储 和 连续 数据 ， 并 且 检 查 点 周期 性 存储 中 间 结 果 。 如 果 一 个 WS 节点 失效 ， 该 共享 磁 
盘 中 的 数据 并 不 会 丢失 。 a 

2.3.2.5 REBAR 

考虑 图 2-19d 中 的 集群 。 假 设 只 有 一 个 节点 失效 。 系 统 的 其 余部 分 (例如 ， 互 连 和 共享 
RAID 磁盘 ) 是 100% 可 用 的 。 假 设 当 一 个 节点 失效 时 ,该 节点 的 工作 量 不 需要 额外 时 间 便 可 转 
移 到 另 一 个 节点 上 。 我 们 提出 下 面 的 问题 ， 如 果 和 忽略 计划 停机 时 间 ， 集 群 的 可 用 性 如 何 ? 如 果 集 
群 需要 1 小 时 / 周 的 维护 时 间 ， 可 用 性 又 如 何 ? 如 果 每 周 关闭 一 小 时 ， 每 次 只 关闭 一 个 节点 ， 集 
群 可 用 性 又 如 何 ? 
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从 表 2-5 可 知 ， 工 作 站 的 可 用 性 高 达 99% 。 两 个 节点 都 停机 的 时 间 仅 占 0.01% 。 因 此 ， 可 
用 性 为 99. 99% 。 目 前 的 故障 恢复 系统 每 年 只 有 一 个 小 时 的 停机 时 间 。 计 划 停 机 时 间 为 52 小 时 / 
年 ， 即 $2/(365 x 24) = 0.0059。 总 停机 时 间 是 0.59% + 0.01% = 0.6%。 集 群 的 可 用 性 为 
99.4% 。 如 果 忽 略 一 个 节点 被 维护 时 ， 另 一 个 节点 可 能 失效 的 情况 ， 其 可 用 性 是 99. 99% 。 
提高 系统 可 用 性 有 两 种 基本 方法 : 增加 MTTF 或 减少 MTTR。 增 加 MTTF 等 同 于 增加 系统 可 
靠 性 。 计 算 机 工业 致力 于 研发 可 人 靠 系统 ， 目 前 工作 站 的 MTIF 的 范围 从 数 百 到 数 千 小 时 不 等 。 然 
而 ， 进 一 步 提高 MTTF 是 非常 困难 和 昂贵 的 。 于 是 ， 集 群 提供 了 一 种 基于 减少 系统 MTIR 的 高 可 
用 性 解决 方法 。 一 个 多 节点 集群 比 工作 站 具有 较 低 的 MTTF (因而 具有 较 低 的 可 靠 性 ) ， 然 而 ， 
其 失效 可 以 被 快速 解决 ， 以 便 提 供 较 高 的 可 用 性 。 我 们 在 集群 设计 中 考虑 了 几 种 宛 余 技术 。 
2.3.2.6 隔离 宛 余 
提高 任何 一 个 系统 可 用 性 的 关键 技术 是 利用 宛 余 组 件 。 当 一 个 组 件 〈 主 组 件 ) 失效 时 ， 该 
组 件 提供 的 服务 可 由 另 一 个 组 件 (备份 组 件 ) 接管 。 此 外 ， 主 组 件 和 备份 组 件 应 该 相互 隔离 ， 
这 意味 着 它们 不 会 因为 相同 的 原因 失效 。 集 群 通过 电能 供应 、 风 扇 、 处 理 器 、 内 存 、 磁 盘 、LO 
设备 、 网 络 和 操作 系统 镜像 等 的 宛 余 ， 提 供 了 高 可 用 性 。 在 一 个 设计 优良 的 集群 中 ， 宛 余 也 是 相 
互 隔离 的 。 隔 离 的 宛 余 提供 了 几 个 好 处 ; 
。 第 一 ， 考 虑 隔离 元 余 的 组 件 不 会 发 生 单 点 失效 ， 因 此 该 组 件 的 失效 不 会 导致 整个 系统 失效 。 
。 第 二 ， 失 效 的 组 件 可 以 在 系统 其 余部 分 正常 工作 时 被 修复 。 
。 第 三 ， 主 组 件 和 备份 组 件 可 以 彼此 相互 检测 及 调试 。 
IBM SP2 通信 子 系统 是 一 个 很 好 的 隔离 元 余 设 计 的 例子 。 所 有 节点 由 两 个 网 络 连 接 :; 以 太 网 
网 络 与 高 性 能 交换 。 每 个 节点 使 用 两 个 独立 网 卡 分 别 连接 到 这 些 网 络 上 。 两 种 通信 协议 : 标准 
IP 和 用 户 空间 (User Space, US) 协议 ; 每 种 协议 均 可 运行 在 另 一 种 网 络 上 。 如 果 任 一 网 络 或 协 
议 失效 ， 另 一 网 络 或 协议 可 接替 。 
2.3.2.7 用 六 版 本 编程 来 增强 软件 可 靠 性 
构造 关键 任务 软件 系统 的 通用 宛 余 方法 称 为 N 版 本 编程 。 软 件 由 六 个 独立 的 队列 执行 ， 这 
些 队列 甚至 不 知道 彼此 的 存在 。 不 同 的 队列 要 求 使 用 不 同 的 算法 、 编 程 语言 、 环 境 工具 甚至 平台 
执行 软件 。 在 一 个 容错 系统 中 ， 这 六 个 版 本 同时 运行 并 且 不 断 比 较 它 们 的 结果 。 如 果 结 果 不 一 
致 ， 系 统 提示 发 生 故 障 。 由 于 隔离 元 余 ， 因 此 在 同一 时 间 内 ， 某 一 故障 导致 大 多 数 W 版 本 失效 
是 几乎 不 可 能 的 。 所 以 系统 可 根据 多 数 表决 产生 的 正确 结果 继续 工作 。 在 一 个 高 可 用 非 关 键 任 
务 系统 中 ， 在 某 一 时 间 只 需 运 行 一 个 版 本 。 每 一 版 本 内 置 自动 检测 功能 。 当 某 个 版 本 失效 时 ， 另 
一 版 本 能 够 接管 其 任务 。 
2. 3.3 容错 集群 配置 
集群 解决 方案 的 目标 是 为 两 个 服务 器 节点 提供 三 个 不 同 级 别 上 的 可 用 性 支持 : 热 备份 、 主 
动 接管 和 容错 。 在 这 一 节 中 ， 我 们 将 考虑 恢复 时 间 、 回 滚 特征 和 节点 主动 性 。 可 用 性 水 平 促进 从 
备份 变化 为 主动 和 容错 集群 配置 。 恢 复 时 间 越 短 ， 集 群 的 可 用 性 越 高 。 回 滚 指 的 是 一 个 恢复 节点 
在 修复 和 维护 后 回归 正常 执行 的 能 力 。 主 动 性 指 的 是 该 节点 在 正常 运行 中 是 否 用 于 活跃 任务 。 
。 热 备份 服务 器 集群 ”在 一 个 热 备份 集群 中 ， 一 般 情况 下 只 有 主要 节点 积极 完成 所 有 有 用 
的 工作 。 备 份 节点 启动 ( 热 ) 和 运行 一 些 监控 程序 来 发 送 与 接收 心跳 信号 以 检测 主要 节 
点 的 状态 ， 但 并 不 积极 运行 其 余 有 价值 的 工作 。 主 要 节点 必须 备份 所 有 数据 至 共享 磁盘 
存储 ， 该 存储 可 被 备份 节点 访问 。 备 份 节点 需要 二 次 复制 的 数据 。 
。 主动 接管 集群 ”在 这 个 例子 中 ， 多 个 服务 器 节点 的 体系 结构 是 对 称 的 。 两 个 服务 器 都 是 
主要 的 ， 正 常 完 成 有 价值 的 任务 。 两 个 服务 器 节点 通常 都 支持 故障 切换 和 恢复 。 当 -一 个 
节点 失效 时 ， 用 户 应 用 程序 转移 至 集群 中 的 其 他 可 用 节点 。 由 于 实施 故障 切换 需要 时 间 ， 
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用 户 可 能 会 遇 到 一 些 延 迟 或 者 丢失 在 最 后 检查 点 前 未 保存 的 部 分 数据 。 

。 故障 切换 集群 ”故障 切换 可 能 是 目前 商业 应 用 集群 所 需 的 最 重要 特征 。 当 一 个 组 件 失效 
时 ， 该 技术 允许 镜 余 系统 接管 之 前 由 失效 组 件 提供 的 服务 。 故 障 切换 机 制 必 须 提供 一 些 
功能 ， 如 失效 诊断 、 失 效 通知 和 失效 恢复 。 失 效 诊 断 是 指 失 效 以 及 导致 该 失效 的 故障 组 
件 位 置 的 检测 。 一 种 常用 的 技术 是 使 用 心跳 消息 ， 集 群 节点 发 送 心跳 消息 给 对 方 。 如 果 
系统 没有 接收 到 某 个 节点 的 心跳 销 息 ， 那 么 可 以 判定 节点 或 者 网 络 连接 失效 了 。 

例 2.8 双 网 络 集群 的 失效 诊断 和 恢复 

集群 使 用 两 个 网 络 连接 其 节点 。 其 中 一 个 节点 被 指定 为 主 节点 (master node)。 每 个 节点 都 

[99] 有 一 个 心跳 维护 进程 ， 该 进程 通过 两 个 网 络 周期 性 (每 10 秒 ) 发 送 心跳 消息 至 主 节点 。 如 果 主 
节点 没有 接收 到 某 节 点 的 心跳 〈10 秒 ) 消息 ， 那 么 将 认为 探测 到 失效 并 会 作出 如 下 诊断 ， 

e 节点 到 两 个 网 络 之 一 的 连接 失效 ， 如 果 主 节点 从 一 个 网 络 接收 到 该 节点 的 心跳 消息 ,但 

从 另 一 个 却 没有 接收 到 。 

e 节点 发 生 故 障 ， 如 果 主 节点 从 两 个 网 络 都 没有 接收 到 心跳 消息 。 这 里 假设 两 个 网 络 同时 

失效 的 几率 忽略 不 计 。 

示例 中 的 失效 诊断 很 简单 ， 但 它 有 若干 缺陷 。 如 果 主 节点 失效 ， 怎 么 办 ? 10 秒 的 心跳 周期 
是 太 长 ， 还 是 太 短 ? 如 果 心 跳 消 息 在 网 络 中 丢失 了 (例如 ， 由 于 网 络 拥塞 )， 怎 么 办 ? 该 机 制 能 
否 适用 于 数 百 个 节点 ? 实际 的 离 可 用 性 系统 必须 解决 这 些 问 题 。 一 种 常用 的 技术 是 使 用 心跳 消 
息 携 带 负载 信息 ， 当 主 节点 接收 到 某 个 节点 的 心跳 消息 时 ， 它 不 仅 了 解 该 节点 存活 着 ， 而 且 知 道 
该 节点 的 资源 利用 率 等 情况 。 这 些 负载 信息 对 于 负载 均衡 和 作业 管理 是 很 有 用 的 。 

失效 一 旦 被 诊断 ， 系 统 将 通知 需要 知道 该 失效 的 组 件 。 失 效 通 知 是 必要 的 ， 因 为 不 仅仅 只 有 
主 节 点 需要 了 解 这 类 信息 。 例 如 ， 某 个 节点 失效 ，DNS 需要 被 通知 ， 以 至 不 会 有 更 多 的 用 户 连 
接 到 该 节点 。 资 源 管理 器 需要 重新 分 配 负 载 ， 同 时 接管 失效 节点 上 的 剩余 负载 。 系 统管 理 员 也 需 
要 被 提醒 ， 这 样 他 能 够 进行 适当 的 操作 来 修复 失效 节点 。 E 

恢复 机 制 

失效 恢复 是 指 接管 故障 组 件 负载 的 必需 动作 。 恢 复 技 术 有 两 种 类 型 : 在 向 后 恢复 中 ， 集 群 上 
运行 的 进程 持续 地 存储 一 致 性 状态 〈 称 为 检查 点 ) 到 稳定 的 存储 。 失 效 之 后 ， 系 统 被 重新 配置 
以 隔离 故障 组 件 、 恢 复 之 前 的 检查 点 ， 以 及 恢复 正常 的 操作 。 这 称 为 回 滚 。 

向 后 恢复 与 应 用 无 关 、 便 携 ， 相 对 容易 实现 ， 已 被 广泛 使 用 。 然 而 ， 回 滚 意 味 着 浪费 了 之 前 
执行 结果 。 如 果 执 行 时 间 是 至 关 重 要 的 ， 如 在 实时 系统 中 ,那么 回 滚 时 间 是 无 法 容忍 的 ， 应 该 使 
用 向 前 恢复 机 制 。 在 这 个 机 制 下 ， 系 统 并 不 回 滚 至 失效 前 的 检查 点 。 相 反 ， 系 统 利用 失效 诊断 信 
息 重 建 一 个 有 效 的 系统 状态 ， 并 继续 执行 。 向 前 恢复 是 应 用 相关 的 ， 并 且 可 能 需要 额外 的 硬件 。 

例 2.9 MTTF、MTTR 和 失效 成 本 分 析 

考虑 一 个 基本 没有 可 用 性 支持 的 集群 。 当 一 个 节点 失效 ,下面 一 系列 事件 将 会 发 生 : 

1. 整个 系统 被 关闭 和 断 电 。 

2. 如 果 硬 件 失效 ， 故 障 节 点 被 替换 。 

3. 该 系统 通电 和 重启 。 

[100 ] 4. 用 户 应 用 程序 被 重新 装载 ， 并 从 开始 重新 运行 。 

假设 集群 中 的 某 个 节点 每 100 小 时 发 生 一 次 故障 。 集 群 的 其 余部 分 不 会 发 生 故 障 。 步 骤 1 ~3 
需要 花费 2 小 时 。 一 般 来 说 ， 步 骤 4 的 平均 时 间 也 是 2 小 时 。 该 集群 的 可 用 性 是 多 少 ? 如 果 每 小 
时 的 停机 损失 为 82 500 美元 ， 每 年 的 失效 损失 是 多 少 ? 

解 ”集群 的 MITF 是 100 小 时 ，MTTR 是 2 + 2 = 4 小 时 。 根 据 表 2-$， 可 用 性 为 100/104 = 
96.15% 。 这 相当 于 每 年 337 小 时 的 停机 时 间 ， 失 效 损失 为 82 500 美元 x337， 即 超过 2 700 万 美元 。 m 
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例 2. 10 计算 机 集群 的 可 用 性 和 成 本 分 析 

重复 例 2.9， 但 是 现在 假设 该 集群 的 可 用 性 支持 显著 提高 。 当 某 个 节点 失效 ， 其 负载 会 自动 
转移 到 其 他 节点 上 。 故 障 切换 的 时 间 只 有 6 分钟 。 同 时 ， 集 群 共有 热 交 换 的 能 力 : 故障 节点 从 集 
群 分 离 、 修 复 、 重 新 插入 、 重 启 以 及 重新 加 入 集群 ， 这 整个 过 程 不 影响 集群 的 其 余部 分 。 这 一 理 
想 集群 的 可 用 性 是 多 少 ， 并 上 且 每 年 的 失效 损失 又 是 多 少 ? 

解 集群 的 MTTF 仍 是 100 小 时 ， 但 是 MTTR 减少 为 0.1 小 时 ， 因 为 当 修复 故障 节点 时 ， 集 
群 是 可 用 的 。 根 据 表 2-$， 可 用 性 为 1007100.5 = 99.9% 。 这 相当 于 每 年 8.75 小 时 的 停机 时 间 ， 
失效 损失 是 82 500 美元 ， 相 较 于 例 2.9， 减 少 至 1738。 | 
2.3.4 检查 点 和 恢复 技术 

检查 点 和 恢复 这 两 种 技术 必须 共同 发 展 ， 才 能 提高 集群 系统 的 可 用 人 性。 我 们 将 从 检查 点 的 
基本 概念 人 手 。 某 个 进程 周期 性 地 保存 执行 程序 的 状态 至 稳定 存储 器 ， 系 统 在 失效 后 能 够 根据 
这 些 信息 得 以 恢复 。 每 一 个 被 保存 的 程序 状态 称 为 检查 点 。 包 含 被 保存 状态 的 磁盘 文件 称 为 检 
查 点 文件 。 虽 然 目前 所 有 的 检查 点 软件 在 磁盘 中 保存 程序 状态 ， 但 是 使 用 节点 内 存 替 代 稳 定 存 
储 器 来 提高 性 能 还 处 在 研究 阶段 。 

检查 点 技术 不 仅 对 可 用 性 有 帮助 ， 同 时 对 程序 调试 、 进 程 迁 移 和 负载 均衡 也 是 有 用 的 。 许 多 
作业 管理 系统 和 一 些 操 作 系 统 支持 某 种 程度 上 的 检查 点 。Web 资源 包含 众多 检查 点 相关 的 Web 
网 站 ， 还 包括 一 些 公共 领域 软件 ， 如 Condor 和 Libckpt。 这 里 ,我 们 将 展示 检查 点 软件 的 设计 者 
和 用 户 重 点 关注 的 问题 。 我 们 将 首先 考虑 串 行 和 并 行程 序 的 共同 问题 ， 接 下 来 将 单独 讨论 并 行 
程序 的 相关 问题 。 

2.3.4.1 内 核 、 库 和 应 用 级 

检查 点 可 以 由 操作 系统 在 内 核 级 实现 ， 操 作 系统 在 内 核 级 透明 地 设立 检查 点 并 重新 开始 进 
程 。 这 对 用 户 来 说 是 理想 的 。 然 而 ， 尤 其 对 于 并 行程 序 ， 大 多 数 操作 系统 并 不 支持 检查 点 。 在 用 
户 空间 ， 以 一 种 较 不 透明 地 方式 链接 用 户 代 码 和 检查 点 库 。 检 查 点 和 重启 操作 由 运行 时 支持 所 
掌控 。 这 种 方法 使 用 广泛 ， 因 为 它 不 需要 修改 用 户 程序 。 

一 个 主要 的 问题 是 目前 大 多 数 检查 点 库 是 静态 的 ， 这 就 意味 着 应 用 程序 的 源 代 码 (或 至 少 
对 象 代码 ) 必须 是 可 得 到 的 。 如 果 应 用 程序 是 可 执行 代码 的 形式 ， 它 则 不 能 正常 工作 。 第 三 种 
方法 需要 用 户 (或 编译 器 〉 在 应 用 程序 中 插 人 检查 点 函数 。 因 此 ， 应 用 程序 必须 被 修改 ， 透 明 
度 也 就 不 能 保证 了 。 然 而 ， 它 的 优点 是 用 户 可 以 指定 在 哪个 位 置 设立 检查 点 。 这 有 利于 减 小 检查 
点 的 开销 ， 因 为 检查 点 会 消耗 一 定 的 时 间 和 存储 。 

2.3.4.2 检查 点 开销 

在 一 个 程序 的 执行 过 程 中 ， 它 的 状态 可 能 保存 很 多 次 。 这 被 表示 为 保存 检查 点 所 需 时 间 。 存 
储 开销 指 的 是 检查 点 需要 的 额外 内 存 和 磁盘 空间 。 时 间 和 存储 开销 取决 于 检查 点 文件 的 大 小 。 
开销 可 能 是 巨大 的 ,尤其 当 应 用 程序 需要 一 个 大 的 内 存 空间 时 。 已 经 有 许多 技术 被 推荐 ， 用 来 降 
低 这 些 开 和 销 。 

2. 3.4.3 选择 最 优 检查 点 间隔 

两 个 检查 点 之 间 的 时 间 间 隔 称 为 检查 点 间隔 。 时 间 间 隔 增 大 可 以 降低 检查 点 的 时 间 开 销 。 
然而 ， 这 意味 着 失效 后 更 长 的 计算 时 间 。Wong 和 Franklin 推导 出 图 2-20 所 示 最 优 检查 点 间隔 的 
表达 式 : 

最 优 检查 点 间隔 = WV(MTTF xt,)/h (2-2) 
这 里 MTIF 是 系统 的 平均 失效 时 间 。MTTF 反映 了 保存 一 个 检查 点 的 时 间 开 销 ,，h 是 在 系统 故障 
前 的 检查 点 时 间 和 间隔 内 ， 进 行 正常 计算 的 平均 百分比 。 参 数 h 处 于 某 个 范围 内 。 系 统 恢 复 之 后 ， 
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需要 花费 hx (检查 点 间隔 ) 的 时 间 来 重新 计算 。 
Ckpt i Ckpt i+1 


t h 失效 t 


检查 点 间隔 


图 2-20 ”两 个 检查 点 间 的 时 间 参 数 

注 ; 由 Hwang 和 Xul14] 提 供 。 

2.3.4.4 增 量 检查 点 

相对 于 每 个 检查 点 保存 全 状态 ， 增 量 检查 点 机 制 只 保存 与 之 前 检查 点 相 比 发 生 改 变 的 状态 。 
然而 ， 必 须 关 注 之 前 的 检查 点 文件 。 在 全 状态 检查 点 中 ， 只 需 在 磁盘 上 维护 一 个 检查 点 文件 ， 之 
后 的 检查 点 文件 可 以 简单 地 覆盖 此 文件 。 在 增 量 检查 点 中 ， 之 前 的 文件 仍 需要 被 维护 ， 因 为 一 个 

状态 可 能 横 跨 许多 文件 。 因 此 ， 总 存储 需求 较 大 。 

2.3.4.5 分 支 检查 点 

大 多 数 检 查 点 机 制 是 阻塞 的 ， 因 为 当 设 置 检查 点 时 ,正常 的 计算 被 停止 。 如 果 有 足够 的 内 
存 ， 可 以 通过 内 存 中 程序 状态 的 复制 并 唤起 另 一 个 异步 线程 同时 执行 检查 点 程序 ， 以 减少 检查 
点 的 开销 。 一 个 简单 的 方法 是 使 用 UNIX fork( ) 系统 调用 计算 重复 检查 点 。 分 支 子 进程 复制 父 进 
程 的 地 址 空间 并 设置 检查 点 ， 与 此 同时 ， 父 进程 继续 执行 。 由 于 检查 点 程序 是 磁盘 -LO 密集 的 ， 
重 又 操作 可 以 实现 ， 进 一 步 的 优化 可 使 用 写 时 优化 机 制 。 

2.3.4.6 用 户 指导 检查 点 

如 果 用 户 插 入 代码 (例如 ， 库 或 系统 调用 ) 告知 系统 何 时 保存 、 保 存 什么 以 及 不 保存 什么 ， 
检查 点 开销 有 时 能 够 大 幅度 降低 。 检 查 点 的 准确 内 容 应 该 是 什么 ? 它 应 该 包含 足够 的 信息 帮助 
系统 恢复 。 进 程 状态 包括 其 数据 状态 和 控制 状态 。 在 UNIX 进程 中 ， 这 些 状 态 存储 在 其 地 址 空 
H, 包括 文 本 (代码 )、 数 据 、 堆 栈 段 和 进程 描述 符 。 保 存 和 恢复 全 状态 的 代价 是 昂贵 的 ， 有 时 
甚至 是 不 可 能 的 。 

例如 ， 进 程 ID 及 其 父 进程 ID 是 不 可 恢复 的 ， 在 许多 应 用 中 它们 也 不 需要 被 保存 。 大 多 数 检 
查 点 系统 只 保存 部 分 状态 。 例 如 ， 通 常 不 保存 代码 段 ， 因 为 在 多 数 应 用 程序 中 其 不 发 生 改 变 。 什 
么 类 型 的 应 用 能 够 被 设置 检查 点 呢 ? 目前 检查 点 机 制 需 要 程序 是 多 机 通用 的 《well behaved) ， 精 
确 的 定义 在 不 同 的 方案 中 有 所 不 同 。 在 最 低 程 度 上 ， 通 用 程序 应 该 不 需要 不 可 恢复 的 状态 信息 ， 
例如 进程 的 ID 数值 。 

2.3.4.7 并 行程 序 检查 点 

现在 我 们 来 看 并 行程 序 检 查 点 。 通 常 并 行程 序 的 状态 远 多 于 串 行 程序 的 状态 ， 因 为 它 包 括 
了 独立 进程 的 状态 集合 ， 以 及 网 络 通信 状态 。 并 行 同 时 也 会 带 来 多 种 时 间 和 一 致 性 问题 。 

例 2. 11 一 个 并 行程 序 检查 点 

图 2-21 描述 了 一 个 三 进程 并 行程 序 的 检查 点 。 标 记 为 x<、y 和 z 的 箭头 表示 进程 间 的 点 对 点 
通信 。 三 条 分 别 标 记 为 a、b fc 的 粗 实 线 表示 三 个 全 局 快照 (或 简称 快照 ) ， 这 里 的 全 局 快照 指 
检查 点 的 集合 〈 表 示 为 点 ) ， 每 个 检查 点 来 自 一 个 进程 。 此 外 ， 一 些 通信 状态 也 可 能 需要 保存 。 
快照 线 与 进程 时 间 线 的 交点 表示 该 进程 设置 〈 局 部 ) 检查 点 的 位 置 。 因 此 ， 程 序 快照 c 由 三 个 
局 部 检查 点 组 成 : st. 到 分 别 是 进程 已 、Q@ 和 和民 的 检查 点 ， 以 及 保存 的 通信 状态 yo | 

2.3.4.8 一 致 快照 

如 果 一 个 进程 在 检查 点 处 没有 接收 到 消息 ， 而 这 个 消息 并 没有 由 其 他 进程 发 出 ， 那 么 全 局 
性 快照 称 为 一 致 的 。 在 图 形 中 ， 这 相当 于 没有 从 右 至 左 穿 过 快照 线 的 箭头 。 因 此 ， 快 照 是 一 致 
的 ， 因 为 箭头 * 是 从 左 向 右 的 。 但 是 快照 c 是 不 一 致 的 ， 因 为 y 是 从 右 到 左 的 。 为 了 确保 一 臻 
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图 2-21 并 行程 序 中 的 一 致 检查 点 和 非 一 致 检查 点 
i: 由 Hwang 和 Kul 提供 。 


性 ， 在 两 个 检查 点 之 间 不 应 该 有 任何 锯齿 路 径 (zigzay path) ™ , 例如， 检查 点 和 s 不 属于 一 
个 一 致 性 的 全 局 快照 。 秘 苛 刻 的 一 致 性 要 求 需要 没有 箭头 穿 过 快照 ， 这 样 只 有 快照 5 是 一 致 的 ， 
如 图 2-21 所 示 。 

2.3.4.9 协作 检查 点 和 独立 检查 点 

并 行程 序 的 检查 点 机 制 可 分 为 两 种 类 型 。 在 协作 检查 点 〈 也 称 为 一 致 检查 点 ) 中 ， 并 行程 
序 冻 结 ， 并 且 所 有 进程 在 同一 时 间 设 置 检查 点 。 在 狐 立 检查 点 中 ， 进 程 彼此 独立 设置 检查 点 。 这 
两 种 类 型 可 以 通过 不 同方 式 相 结合 。 协 作 检 查 点 难以 实现 ， 并 且 需 要 巨大 的 开销 。 独 立 检查 点 则 
具有 较 小 的 开销 ， 可 以 利用 串 行 程序 现 有 的 检查 点 机 制 。 
2.4 集群 作业 和 资源 管理 

本 节 涵 盖 在 集群 系统 上 执行 多 个 作业 的 多 种 调度 方法 ， 还 将 介绍 描述 集群 计算 的 中 间 件 ， 
以 及 在 大 规模 集群 或 云 中 ， 用 于 资源 管理 的 分 布 式 操作 系统 MOSIX。 
2.4.1 集群 作业 调度 方法 

集群 作业 可 能 在 一 个 指定 的 时 间 (日历 调度 ) ， 或 者 在 特定 事件 发 生 〈 事 件 调度 ) 时 被 调度 
运行 。 表 2-6 总 结 了 用 于 解决 集群 作业 调度 问题 的 各 种 方案 。 根 据 提 交 时 间 、 资 源 节 点 、 执 行 时 
间 、 内 存 、 磁 盘 、 作 业 类 型 及 用 户 认证 的 优先 级 ， 作 业 被 调度 。 静 态 优先 级 指 的 是 根据 预定 的 方 
案 ， 作 业 被 分 配 的 优先 级 。 其 中 一 个 简单 的 方案 是 采用 先 到 先 服务 的 形式 调度 作业 。 另 一 种 方案 
是 为 用 户 分 配 不 同 的 优先 级 ， 而 作业 的 动态 优先 级 可 能 会 随时 间 发 生变 化 。 

表 2-6 集群 节点 的 作业 调度 问题 和 机 制 
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与 外 界 〈 本 地 ) 作业 竞争 
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共享 集群 节点 有 三 种 不 同 机 制 。 在 专用 模式 中 ， 在 某 一 时 间 集 群 中 只 有 一 个 作业 运行 ， 在 某 
一 时 间 一 个 节点 至 多 被 分 配 一 个 作业 进程 。 作 业 直 至 运行 完成 ， 才 释放 集群 让 其 他 作业 运行 。 值 
得 注意 的 是 ， 即 使 在 专用 模式 中 ， 一 些 节 点 可 能 保留 ， 以 供 系 统 使 用 ， 不 对 用 户 作 业 开 放 。 除 此 
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之 外 ， 所 有 集群 资源 用 于 运行 单一 作业 ， 这 可 能 会 导致 系统 利用 率 低 。 作 业 资 源 需 求 可 以 是 静态 
的 ， 也 可 以 是 动态 的 。 静 态 机 制 在 单一 作业 的 整个 周期 ， 固 定 分 配 一 定数 目的 节点 。 静 态 机 制 可 
以 充分 利用 集群 资源 。 它 无 法 处 理 所 需 节点 变 得 不 可 用 的 情形 ， 例 如 ， 单 工作 站 的 所 有 者 关闭 了 
机 器 。 

动态 资源 允许 作业 在 运行 中 获得 或 释放 节点 。 然 而 ， 这 是 难以 实施 的 ， 需 要 运行 的 作业 和 
Java 信息 服务 (Java Message Service, JMS) 协作 。 作 业 对 IMS 提交 异步 添加 /删除 资源 的 请 求 。 
IMS 需要 通知 该 作业 何 时 资源 变 得 可 用 ， 同 步 意 味 着 作业 会 被 请 求 / 通 知 推迟 (阻塞 ) 。 作 业 和 
LMS 的 协作 需要 修改 编程 语言 / 库 。 此 协作 的 原始 机 制 存 在 于 PVM 和 MPI 中 。 

2.4.1.1 空间 共享 

常用 的 方案 是 在 日 间 赋 予 短 的 交互 作业 较 高 的 优先 级 ， 而 在 晚间 使 用 瓷砖 式 覆 盖 。 在 这 个 
空间 共享 模式 中 ， 多 个 作业 可 以 在 分 离 的 节点 分 区 (248) 同时 运行 。 一 个 进程 在 某 一 时 间 至 多 
被 分 配 到 一 个 节点 。 虽 然 部 分 节点 只 分 配给 一 个 任务 ， 但 是 互 连 和 IO 子 系统 可 能 被 所 有 作业 共 
享 。 空 间 共享 必须 解决 瓷砖 式 覆 盖 问 题 和 大 规模 作业 问题 。 

例 2. 12 ”集群 节点 上 依据 瓷砖 式 履 盖 的 作业 调度 

图 2-22 描述 了 瓷砖 式 履 姜 技术 。 在 图 2-22a H, JMS 在 4 个 节点 上 按照 先 到 先 服务 的 策略 调 
an 作业 1 和 2 较 小 ， 因 此 被 分 配 至 节点 1 和 2。 作 业 3 和 4 是 并 行 的 ， 且 每 个 均 需 要 3 

节点 。 当 作业 3 到 达 时 ， 它 不 能 够 立即 运行 。 它 必须 等 待 作业 2 完成 ， 并 释放 其 使 用 的 节点 。 
E p a P E a pe i 
业 的 整体 执行 时 间 减 少 了 。 这 个 问题 在 专用 模式 或 者 空间 共享 模式 中 不 能 得 到 解决 。 然 而 ， 通 过 
分 时 操作 ， 该 问题 能 够 得 以 缓和 。 E 


HAL 节点 2 节操 3 节点 4 时 间 


ral 节点 2 节点 3 节点 4 








“a ) 先 到 先 服务 Ob) REESE 
图 2-22 ”用 于 集群 节点 上 作业 调度 的 瓷砖 式 履 盖 技术 减少 了 整体 时 间 ， 因 此 增加 了 作业 吞吐 量 
注 ; 由 Hwang 和 Xul14] 提 供 。 


2.4.1.2 分 时 

在 专用 或 者 空间 共享 模式 中 ， 每 个 节点 只 分 配 了 一 个 用 户 进程 。 然 而 ， 该 节点 上 的 系统 进程 
或 后 台 程 序 仍 在 运行 。 在 分 时 模式 中 ， 多 个 用 户 进程 被 分 配 至 相同 的 节点 ， 引 入 了 下 列 并 行 调 度 
策略 : 

L 独立 调度 ”分 时 的 最 直接 实现 如 同 传统 的 工作 站 ,使 用 集群 中 每 个 节点 的 操作 系统 来 调 
度 不 同 的 进程 。 这 称 为 局 部 调度 或 独立 调度 。 然 而 ， 这 会 导致 并 行 作业 的 性 能 明显 降低 ， 因 为 执 
行 并 行 作业 的 进程 之 间 需 要 交互 。 例 如 ， 当 一 个 进程 试图 与 另 一 个 进程 界限 同步 ， 后 者 可 能 已 被 
调度 出 去 。 于 是 第 一 个 进程 必须 等 待 。 而 当 第 二 个 进程 被 重新 调度 时 ， 第 一 个 进程 可 能 已 被 
替换 。 

2. 组 调度 ”组 调度 机 制 共同 调度 并 行 作 业 的 全 部 进程 。 一 个 进程 活跃 ， 则 所 有 的 进程 都 活 
牙 。 集 群 节点 并 不 完全 锁 同 步 。 人 
说 :“ 所 有 进程 将 在 同一 时 间 运 行 ,” 但 是 它们 不 会 十 分 精确 地 在 同一 时 间 开 始 。 在 第 一 个 进程 
开始 和 最 后 一 MEERES, BUARRRCEKES, SANIRAA, TELKEN 
间 就 越 长 ， 从 而 导致 更 长 的 运行 时 间 。 我 们 应 该 使 用 同 构 集群 ， 这 样 组 调度 更 有 效 。 然 而 ， 由 于 
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实施 困难 ， 组 调度 在 大 多 数 集群 中 并 未 实现 。 

3. 与 外 界 (本 地 ) 作业 竞争 ” 当 集 群 作业 和 本 地 作业 都 运行 时 ， 调 度 变 得 更 复杂 。 本 地 作 
业 的 优先 级 应 高 于 集群 作业 。 拥 有 者 仅 需 击 一 次 键 ， 便 可 掌控 所 有 工作 站 资源 。 处 理 这 种 情况 一 
般 有 两 种 方法 ， 集群 作业 可 以 驻 留 在 工作 站 节点 或 者 迁移 到 另 一 个 空闲 节点 。 驻 留 方案 可 以 避 
免 迁 移 开 销 ， 但 集群 进程 以 最 低 优 先 级 运行 。 工 作 站 周期 可 以 分 为 三 个 部 分 : 内 核 进程 、 本 地 进 
程 和 集群 进程 。 然 而 ， 驻 留 降 低 了 本 地 和 集群 作业 的 速度 ， 尤 其 是 当 集 群 作业 是 一 个 需要 频繁 同 
步 和 通信 的 负载 均衡 的 并 行 作 业 时 。 于 是 可 以 转移 作业 到 可 用 周围 节点 ， 以 平衡 负载 。 

2.4.2 集群 作业 管理 系统 

作业 管理 也 称 为 负载 管理 或 负载 共享 。 我 们 首先 讨论 作业 管理 系统 面临 的 基本 问题 ， 并 总 
结 可 用 的 软件 包 。 作 业 管 理 系统 (Job Management System, JMS) 具有 三 部 分 : 

e 用 户 服 务 器 : 提交 用 户 作 业 至 一 个 或 多 个 队列 ， 为 每 个 作业 指定 资源 需求 ， 将 作业 从 队 

列 中 删除 ， 以 及 询问 作业 或 队列 的 状态 

。 作 业 调度 器 : 根据 作业 类 型 、 资 源 需 求 、 资 源 可 用 性 和 调度 策略 ， 执 行 任务 调度 和 排队 。 

。 资源 管理 器 : 分 配 和 监控 资源 ， 执 行 调度 策略 ， 以 及 收集 统计 信息 。 

2.4.2.1 JMS 管理 

JMS 的 功能 通常 是 分 布 的 。 例 如 ， 用 户 服务 器 可 能 在 每 个 主机 节点 中 ， 而 资源 管理 器 则 可 能 
跨越 所 有 集群 节点 。 然 而 ，JMS 的 管理 应 该 是 集中 的 ， 所 有 配置 与 日 志文 件 应 该 维护 在 同一 地 
点 。 并 且 需 要 一 个 单一 用 户 界面 以 便 使 用 JMS。 强 制 用 户 使 用 某 一 软件 包 运 行 PVM 作业 、 使 用 
另 一 软件 包 运 行 MPI 作业 ， 以 及 使 用 剩余 的 某 一 软件 包 运 行 HPF 作业 ， 是 不 受 欢迎 的 。 

JMS 应 该 能 够 在 对 运行 作业 产生 最 小 影响 的 情况 下 ， 动 态 重新 配置 集群 。 管 理 员 的 开始 和 结 
束 脚本 应 该 能 够 在 安全 检查 、 统 计 和 清除 作业 之 前 及 之 后 运行 。 用 户 应 该 能 够 干净 地 清除 他 们 
自己 的 作业 。 管 理 员 或 JMS 应 该 能 够 干净 地 暂停 或 清除 任何 作业 。 和 干净 (clean) 意味 着 当 某 一 
作业 中 止 或 死亡 时 ， 必 须 涵盖 所 有 它 的 进程 。 和 否则， 有些“ 孤儿 ”进程 遗留 在 系统 中 ， 会 浪费 
系统 资源 并 且 可 能 最 终 导 致 系统 无 法 使 用 。 

2.4.2.2 集群 作业 种 类 

一 个 集群 上 可 以 和 运行 儿 类 作业 。 串 行 作 业 在 单个 节点 上 运行 。 并 行 作 业 使 用 多 个 节点 。 交 互 
作业 需要 快速 的 周转 时 间 ， 并 且 其 输入 /输入 指向 一 个 终端 。 这 些 作业 不 需要 大 量 资源 ， 但 用 户 
期 望 作业 被 立即 执行 ， 不 需要 在 队列 中 等 待 。 批 量 作业 通常 需要 更 多 的 资源 ; 如 大 内 存 空间 和 长 
CPU 时 间 ， 但 是 它们 不 要 求 立即 反馈 结果 。 于 是 它们 被 提交 至 作业 队列 ， 当 资源 可 用 上 时 (如 在 

空闲 时 间 ) ， 被 调度 执行 。 

相 较 于 交互 作业 和 批量 作业 由 IMS 管理 ， 外 界 作 业 是 在 IMS 之 外 被 创建 的 。 例 如 ， 当 工作 
站 网 络 作为 集群 时 ， 用 户 可 以 向 IMS 提交 交互 作业 或 批量 作业 。 同 时 ,工作 站 的 所 有 者 可 以 在 
任意 时 间 创 建 一 个 外 界 作 业 ， 该 作业 不 通过 JMS 提交 。 这 类 作业 也 称 为 本 地 作业 ， 相 对 于 集群 
作业 〈 交 互 或 批量 、 并 行 或 串 行 ) 。 本 地 作业 的 特征 是 响应 时 间 迅 速 。 所 有 者 希望 所 有 资源 执行 
他 的 作业 ， 就 好 像 集 群 作业 不 存在 一 样 。 

2.4.2.3 集群 负载 特征 

为 了 解决 作业 管理 问题 ， 我 们 必须 了 解 集群 的 工作 行为 。 在 实际 集群 上 ， 基 于 长 期 操作 数据 
来 描述 负载 似乎 是 理想 的 。 并 行 负 载 跟踪 包括 开发 与 生产 作业 。 这 些 跟 踪 被 输入 一 个 模拟 器 ， 依 
据 不 同 的 串 行 与 并 行 负 载 的 组 合 、 资 源 分 配 和 调度 策略 ， 产 生 不 同 的 统计 结果 和 性 能 结果 。 下 列 
负载 特征 基于 NAS 基准 测试 程序 实验 ， 当然 ， 不 同 的 负载 可 能 有 不 同 的 统计 结果 。 

。 约 一 半 的 并 行 作业 在 正常 工作 时 间 内 提交 。 约 80% 的 并 行 作业 运行 持续 三 分 钟 甚至 更 少 ; 

运行 时 间 超 过 90 分 钟 的 并 行 作 业 占 总 时 间 的 50% 。 
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。 HAT ABLE AR, 60% ~ 70% 的 工作 站 可 以 在 任意 时 间 执 行 并 行 作 业 ， 即 使 在 日 间 高 峰 


时 间 。 
。 在 工作 站 中 ，53% 的 空闲 时 间 为 3 分 钟 或 者 更 少 ,但 是 95% 的 空闲 时 间 在 10 分 钟 之 后 才 
被 使 用 。 


。 2:1 法 则 ， 即 一 个 包含 64 个 工作 站 的 网 络 ， 具 有 合适 的 JMS HF, RT RATA, 
能 够 维持 一 个 32 节点 的 并 行 负载 。 换 名 话说， 集群 化 的 一 半 被 免费 提供 给 超级 计算 机 ! 

2.4.2.4 迁移 机 制 

一 个 迁移 机 制 必须 考虑 以 下 三 个 问题 : l 

。 节点 可 用 性 ”这 涉及 作业 迁移 时 的 节点 可 用 性 。Berkeley NOW 项 目 声称 大 学 校园 环境 内 
还 存在 这 样 的 情形 。 即 使 在 高 峰 时 间 ， 伯 克利 校园 集群 中 60% 的 工作 站 是 可 用 的 。 

。 迁移 开销 ”迁移 开销 的 影响 包括 什么 ?迁移 时 间 会 显著 影响 并 行 作 业 运 行 。 降 低 迁 移 开 
4 (如 通过 提高 通信 子 系统 ) 或 尽量 少 迁 移 是 很 重要 的 。 如 果 一 个 并 行 作业 运行 在 2 倍 
规模 的 集群 上 ， 其 减速 时 间 将 显著 降低 。 例 如 ， 一 个 32 节点 的 并 行 作 业 在 一 个 60 节点 
集群 上 运行 ， 由 迁移 造成 的 减速 时 间 不 超过 20% ， 即 使 迁移 有 3 分 钟 之 长 。 这 是 因为 多 
个 节点 是 可 用 的 ， 因 此 迁移 需求 减少 了 。 

。 迁移 阅 值 ”发 生 迁 移 的 立 值 应 该 是 什么 ? 最 坏 的 情况 下 ， 当 进程 迁移 到 某 一 节点 ， 该 节 
点 立即 被 它 的 所 有 者 控制 。 因 此 ， 进 程 必须 再 次 迁移 ， 其 至 不 断 循环 下 去 。 迁 移 立 值 是 
在 集群 认为 某 工作 站 是 空闲 节点 之 前 ， 该 工作 站 闲置 的 时 间 。 

2.4.2.5 JMS 期 望 特征 

下 面 是 集群 计算 应 用 中 的 一 些 特征 ， 已 应 用 于 部 分 商业 JMS: 

。 最 大 程度 支持 异 构 Linux 集群 ， 支 持 并 行 作业 和 批量 作业 。 但 是 ，Connect: Queue 不 支持 
交互 作业 。 

。 企业 级 集群 作业 由 IMS 管理 。 它 们 将 影响 运行 本 地 作业 的 工作 站 所 有 者 。 然 而 ，NQE 和 

PBS 人 允许 调整 这 类 影响 。 在 DQS 中 ， 该 影响 能 够 配置 为 最 小 。 

软件 包 提 供 某 种 负载 均衡 机 制 以 有 效 利 用 集群 资源 。 某 些 软件 包 支持 检查 点 。 

大 多 数 软 件 包 不 支持 动态 进程 迁移 。 它 们 支持 静态 迁移 : 一 个 进程 可 以 在 其 第 一 次 被 创 

建 时 ,被 派 遗 到 远程 节点 上 执行 。 然 而 , 一旦 它 开始 执行 ， 它 便 驻 留 在 那个 节点 中 。 

Condor 是 一 个 支持 动态 进程 迁移 的 软件 包 。 

所 有 软件 包 人 允许 通过 用 户 或 管理 员 动 态 暂 停 和 恢复 用 户 作 业 。 所 有 软件 包 人 允许 动态 添加 

或 删除 资源 《如 节点 )。 

大 多 数 软 件 包 提供 命令 行 界面 和 图 形 用 户 界面 。 除 了 UNIX 的 安全 机 制 外 ， 大 多 数 软 件 包 

还 使 用 Kerberos 认证 系统 。 

2.4.3 集群 计算 的 负载 共享 设备 (LSF) 

LSF 是 平台 计算 中 的 商用 负载 管理 系统 宫 ] 。 在 并 行 作业 和 串 行 作业 中 ，LSF 强调 作业 管理 和 
负载 共享 。 此 外 ， 它 还 支持 检查 点 、 可 用 性 、 负 载 迁 移 和 单 系统 镜像 。LSF 具有 高 扩展 性 ， 并 且 
能 够 支持 上 千 个 节点 的 集群 。LSF 服务 于 各 种 UNIX 和 Windows/NT 平台 。 目 前 ，LSF 不 仅 在 集群 
中 使 用 ， 也 在 网 格 和 云 中 使 用 。 

2.4.3.1 LSF 体系 结构 

LSF 支持 大 多 数 UNIX 平台 ， 并 采用 标准 IP 进行 IMS 通信 。 正 因为 如 此 ， 它 可 以 使 UNIX 计 


” 算 机 的 异 构 网 络 成 为 一 个 集群 ， 而 没有 必要 修改 潜在 的 操作 系统 内 核 。 终端 用 户 使 用 有 效 命 令 


集合 调用 LSF 功能 。LSF 支持 PVM 和 MPI， 提 供 命令 行 界面 及 GUI， 同 时 LSF 也 为 熟练 用 户 提 供 
了 名 为 LSLIB (Load Sharing Library ， 负 载 共享 库 ) 的 运行 时 库 的 API。 使 用 LSLIB 明确 要 求 用 户 
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修改 应 用 程序 代码 ， 而 不 是 使 用 实用 命令 。 集 群 中 的 每 个 服务 器 有 两 个 LSF 维护 进程 。 负 载 信 
息 管 理 器 (Load Information Managers, LIM) 定期 交换 负载 信息 。 远 程 执 行 服务 器 (Remote 
Execution Server, RES) 执行 远程 任务 。 

2.4.3.2 LSF 实用 命令 

集群 节点 可 能 是 具有 单 处 理 器 主机 或 多 处 理 器 的 SMP 节点 ,但 总 是 只 运行 节点 上 操作 系统 
的 单一 备份 。 下 面 是 构建 LSF 设备 的 一 些 有 趣 特征 ， 

e LSF 支持 交互 、 批 量 、 串 行 和 并 行 作业 的 任意 组 合 。 不 通过 LSF 执行 的 作业 称 为 外 界 作 
业 。 服 务 器 节点 是 可 以 运行 LSF 作业 的 节点 。 客 户 端 节 点 是 可 以 初始 化 或 提交 但 不 能 执 
行 LSF 作业 的 节点 。 只 有 服务 器 节点 的 资源 可 以 共享 。 服 务 器 节点 也 可 以 初始 化 或 提交 
LSF 作业 。 

LSF 为 从 LSF 获取 信息 和 远程 执行 作业 提供 了 一 套 工具 (lstools)。 例 如 ，lshosts 列 出 了 
集群 中 每 个 服务 器 节点 的 静态 资源 ( 稍 后 讨论 ) ， 命 令 bun 用 于 执行 远程 节点 上 的 程序 。 
当 用 户 在 客户 端 节点 输入 命令 多 lsrun-R“swp >100’ myjob， 应 用 程序 myjob 将 自动 选择 
负载 最 轻 的 服务 器 节点 运行 ， 该 节点 的 可 用 交换 空间 大 于 100MB, 

工具 Isbatch 人 允许 用 户 通过 LSF 提交 、 监 控 及 执行 批量 作业 。 该 工具 是 常用 的 UNIX 命令 
解释 器 tosh 的 负载 共享 版 本 。 一 旦 用 户 进 入 lstcsh shell, 每 个 输入 的 命令 将 自动 地 在 合适 
节点 上 和 运行。 这 是 透明 的 : 用 户 所 看 见 的 shell， 如 同 tesh 在 本 地 节点 上 运行 一 样 。 

。 工具 lsmake 是 UNIX 工具 make 的 并 行 版 本 ,使 生成 文件 可 在 多 个 节点 上 同时 执行 。 

例 2. 13 计算 机 集群 上 的 LSF 应 用 

假设 一 个 集群 由 8 个 昂贵 的 服务 器 节点 和 100 个 廉价 的 客户 端 节点 〈 工 作 站 或 个 人 计算 机 ) 
组 成 。 服 务 器 节点 郧 贵 是 因为 它 有 更 好 的 硬件 和 软件 ， 包括 应 用 软件 。 授 权 协 议 允 许 安装 
FORTRAN 语言 编译 器 和 计算 机 辅助 设计 (CAD) 模拟 软件 包 ， 最 多 对 4 个 用 户 有 效 。 使 用 一 个 
JMS (如 LSF) ， 服 务 器 节点 的 所 有 硬件 和 软件 资源 都 是 透明 地 提供 给 客户 端 。 

用 户 坐 在 客户 终端 前 感觉 本 地 客户 端 节 点 具有 所 有 软件 及 服务 器 性 能 。 输 入 lsmake 
my. makefile， 用 户 可 以 在 4 个 服务 器 上 编译 他 的 源 代码 。 因 为 LSF 选择 负载 最 少 的 节点 ， 所 以 使 
用 LSF 也 有 益 于 资源 利用 。 例 如 ， 如 果 用 户 想 要 运行 CAD 模拟 ， 可 以 提交 批量 作业 。 一 旦 软件 
变 得 可 用 ，LSF 将 会 调度 这 个 作业 。 E 
2.4.4 MOSIX: Linux 集群 和 云 的 操作 系统 

MOSIX 由 希 伯 来 大 学 在 1977 年 开发 ， 是 一 个 分 布 式 操作 系统 。 最 初 ， 该 系统 扩展 了 BSD/ 
OS 系统 调用 ， 用 于 奔腾 系列 集群 中 的 资源 共享 。 在 1999 年 ， 该 系统 被 重新 设计 ， 运 行 在 x86 平 
GAY Linux 集群 上 。MOSIX 项 目 在 2011 年 仍然 活跃 ， 这些 年 共 发 布 了 10 个 版 本 。 最 新 的 版 本 
MOSIX2 与 Linux 2. 6 HX., 

2.4.4.1 Linux 集群 的 MOXIS2 

MOSIX2 是 运行 在 Linux 环境 中 的 虚拟 化 层 。 该 层 利用 运行 时 Linux 支持 ， 为 用 户 和 应 用 程序 
提供 单 系统 镜像 。 该 系统 运行 远程 节点 上 的 应 用 程序 ， 就 如 在 本 地 一 样 。 它 支持 串 行 和 并 行 应 用 
程序 ， 并 且 可 以 发 现 资源 ， 在 Linux 节点 之 间 透 明 地 自动 迁移 软件 进程 。MOSIX2 也 可 以 管理 
Linux 集群 或 多 集群 网 格 。 

网 格 的 灵活 管理 允许 集群 所 有 者 可 以 在 多 集群 所 有 者 之 间 共 享 计算 资源 。 每 个 集群 仍 保有 
自治 权 ， 可 以 在 任意 时 间 从 网 格 中 断 开 自己 的 节点 。 这 应 当 在 不 影响 正在 运行 的 程序 的 前 提 下 
完成 。 许 可 MOSIX 的 网 格 只 要 集群 所 有 者 间 相 互信 任 ， 就 可 以 无 限 扩展 。 其 条 件 是 需要 保证 正 
运行 于 远程 集群 的 客户 应 用 程序 不 能 够 被 修改 。 不 友善 的 计算 机 不 允许 连接 到 本 地 网 络 。 
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2.4.4.2 MOSIX2 中 的 SSI. 特 征 

系统 能 以 本 机 模式 或 作为 虚拟 机 运行 。 在 本 机 模式 中 ， 其 性 能 较 好 ， 但 是 它 要 求 修 改 基本 
Linux 内 核 ; 而 虚拟 机 可 运行 于 支持 虚拟 化 且 不 作 任 何 修 改 的 操作 系统 中 ， 包 括 微软 Windows, 

110] Linux 和 Mac OS X。 此 系统 中 最 适合 运行 具有 少量 或 中 等 数量 VO 操作 的 计算 密集 型 应 用 程序 。 

MOSIX2 的 测试 表明 在 1GB/s 校园 网 格 中 的 若干 应 用 程序 性 能 和 单个 集群 上 的 几乎 相同 。 下 面 是 
MOSIX2 的 部 分 有 趣 特征 ; 

。 用 户 可 以 从 任何 节点 登录 ， 并 不 需要 知道 程序 的 运行 位 置 。 

。 没有 必要 修改 应 用 程序 或 链接 应 用 程序 至 特殊 库 。 

e 没有 必要 复制 文件 至 远程 节点 ， 这 是 因为 进程 迁移 可 以 自动 发 掘 资 源 和 分 配 负载 。 

。 用 户 能 够 平衡 负载 ， 将 进程 从 较 慢 节点 迁移 至 快速 节点 ， 并 从 内 存 耗 尽 的 节点 中 迁移 出 

。 关于 迁移 进程 直接 通信 的 套 接 字 也 是 可 迁移 的 。 

© 该 系统 以 客户 进程 的 安全 运行 时 环境 为 特征 。 

。 该 系统 能 够 运行 批量 作业 ， 并 可 以 通过 检查 点 恢复 ， 这 由 自动 安装 和 配置 脚本 的 工具 

实现 。. 

2.4.4.3 高 性 能 计算 机 上 MOSIX 的 应 用 

MOSIX 是 用 于 高 性 能 计算 机 集群 、 网 格 和 云 计 算 的 研究 型 操作 系统 。 该 系统 的 设计 者 声称 
MOSIX 通过 自动 资源 发 现 和 负载 均衡 提供 了 广域网 格 资源 的 高 效 利 用 。 长 进程 被 自动 分 配 到 网 
格 节点 ， 在 运行 长 进程 可 能 造成 不 可 预测 的 资源 请 求 或 运行 时 间 的 情况 下 ， 该 系统 可 以 运行 应 
用 程序 。 因 为 节点 负载 索引 和 可 用 内 存 的 不 同 ， 在 节点 间 迁 移 进程 时 ， 该 系统 也 能 够 结合 具有 不 
同 能 力 的 节点 。 

MOSIX 在 2001 年 成 为 专利 软件 。 科 学 计算 的 应 用 实例 包括 基因 序列 分 析 、 分 子 动力 学 、 量 
子 动力 学 、 纳 米 技术 和 其 他 并 行 高 性 能 计算 机 应 用 ; 工程 上 的 应 用 包括 CFD、 天 气 预报 、 碰 擅 模 
拟 、 石 油 工 业 模 拟 、ASIC 设计 和 药物 设计 ; 以 及 云 应 用 ， 如 金融 建 模 、 演 染 车 间 和 编译 车 间 。 

例 2. 14 使 用 MOSIX 和 PVM 的 内 存 引导 算法 

当 本 地 节点 的 主 内 存 耗 尽 时 ， 内 存 引导 借用 远程 集群 节点 的 主 内 存 。 远 程 节点 的 加 入 可 通 
过 进程 迁移 实现 ， 而 不 用 对 本 地 磁盘 进行 分 页 或 交换 。 引 导 进 程 可 由 PVM 命令 实现 ， 也 可 以 使 
用 MOSIX 进程 迁移 。 在 每 一 次 执行 中 ， 平 均 内 存 块 可 以 分 配 至 使 用 PVM 的 节点 。 图 2-23 显示 了 
使 用 PVM 和 MOSIX 的 内 存 算 法 所 需 执行 时 间 的 比较 。 
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图 2-23 ”使 用 MOSIX 或 PVM 的 内 存 引导 算法 的 性 能 
注 : 由 A. Barak 和 O. La’adan'5] 提供 。 
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对 于 小 型 的 8 节点 集群 ， 它 们 的 执行 时 间 相 对 接近 。 当 集群 规模 扩展 至 32 节点 ，MOSIX 程 
序 在 引导 时 间 上 减少 了 60%。 此 外 ， 当 集群 规模 增长 时 ，MOSIX 性 能 几乎 相同 。PVM 引导 时 间 
以 平均 每 节点 3. 8% 的 速度 单调 上 升 ， 而 MOSIX 以 每 节点 0.4% 的 速度 持续 下 降 。 该 实验 结果 证 OU 
实 了 MOSIX 的 内 存 和 负载 均衡 算法 比 PVM 有 更 高 的 扩展 性 。 a 


2.5 顶尖 超级 计算 机 系统 的 个 案 研究 


本 节 回 顾 了 三 个 领先 超级 计算 机 ， 这 三 个 超级 计算 机 在 2008 一 2010 年 已 被 选 人 Top500 名 
单 。IBM Roadrunner 是 世界 上 第 一 个 于 万 亿 次 计算 机 ， 在 2008 年 排名 第 一 。 之 后 ，Cray XTS 
Jaguar 在 2009 成 为 领先 系统 。2010 年 11 月， 中国 Tianhe-1A 成 为 世界 上 最 快 的 系统 。 这 3 个 系 
统 均 采用 Linux 集群 结构 ， 通 过 大 量 可 同时 运行 的 计算 节点 实现 大 规模 并 行 。 
2.5.1 Tianhe-1A: 2010 年 的 世界 最 快 超级 计算 机 

2010 年 11 月 ，2010 ACM Supercomputing Conference 宣布 Tianhe-1A 为 混合 超级 计算 机 。 该 系 
HETE Linpack 基准 测试 中 ， 显 示 了 2. 507Pflops 的 持续 速度 ， 因 此 成 为 2010 年 Top500 名 单 中 排名 
第 一 的 超级 计算 机 。 该 系统 由 中 国 国防 科学 技术 大 学 (NUDT) 开发 ， 于 2010 年 8 月 安装 于 天 津 
国家 超级 计算 机 中 心 (NSC, www. nsce. tj. gov. cn) 。 该 系统 计划 用 来 作为 研究 和 教育 的 开放 平 
台 。 图 2-24 显示 了 安装 在 NSC 的 Tianhe-1A 系统 。 








图 2-24 Tianhe-1A 系统 ， 由 中 国 国防 科 学 技术 大 学 构建 ， 安 置 在 天 津 国家 超级 计算 机 中 心 〈2011)071 
2.5.1.1 Tianhe-1A 体系 结构 
图 2-25 显示 了 Tianhe-1A 系统 的 精简 体系 结构 。 系 统 由 5 个 主要 部 件 组 成 。 计 算 子 系统 覆盖 了 
7 168 个 节点 上 的 所 有 CPU 和 GPU。 服 务 子 系统 包含 8 个 操作 节点 。 存 储 子 系统 拥有 一 大 批 共享 磁 
盘 。 监 测 与 诊断 子 系统 用 于 控制 和 1/O 操作 。 通 信子 系统 由 连接 所 有 功能 性 子 系统 的 交换 机 组 成 。 
2.5.1.2 硬件 实现 
该 系统 采用 了 14 336 个 2. 93GHz 的 六 核 Xeon E5540/E5450 处 理 器 及 7 168 个 NVIDIA Tesla 
M2050s。 它 具有 7 168 个 计算 节点 ， 每 个 节点 由 两 个 2.93GHZ 1X & Intel Xeon X5670 
(Westmere) 处 理 器 和 一 个 NVIDIA M2050 GPU 通过 PCI-E 连接 组 成 。 每 片 有 两 个 节点 ， 高 度 为 
2U (图 2-25 ) 。 整 个 系统 有 14 336 个 Intel HHH ( Westmere), 7 168 个 NVIDIA Fermi 板 和 2 048 








78 ”第 一 部 分 ”系统 建 模 、 集 群 化 和 虚拟 化 





服务 子 系统 

















Coss X oss 7 


2-25 Tianhe-1A 的 精简 体系 结构 


个 Galaxy 插 板 (基于 Galaxy 处 理 器 的 节点 用 于 系统 的 前 端 处 理 ) 。 每 个 计算 节点 有 两 个 Intel 插 
112 板 、 一 个 Fermi {AI 32GB 的 内 存 。 
113 整个 系统 的 理论 峰值 为 4. 7Pflops/s， 如 图 2-26 中 的 计算 所 示 。 值 得 注意 的 是 ， 每 个 GPU 节 
点 中 有 448 个 CUDA 核 。 峰 值 速度 应 该 综合 考虑 14 236 个 Xeon CPU (共有 380 064 个 核 ) 和 7 168 
4 Tesla GPU (每 个 节点 有 448 个 CUDA 核 ， 总 共有 3 496 884 个 CUDA 核 ) CPU 和 GPU 芯片 共有 
3 876 948 个 处 理 器 核 。 一 个 操作 节点 拥有 两 个 8 核 Galaxy 芯片 (1GHz，SPARC 体系 结构 ) 45 32GB 
， 内 存 。Tianhe-1A 系统 被 封装 为 112 个 计算 机 柜 、12 个 存储 机 柜 、6 个 通信 机 柜 和 8 个 IO 机 柜 。 
操作 节点 由 两 个 8 核 Galaxy FT-1000 芯片 组 成 。 这 些 处 理 器 由 NUDT 设计 ， 频 率 为 1GHz。 八 核 
芯片 的 理论 峰值 是 8Gftlops/s。 整 个 系统 拥有 1 024 个 这 样 的 操作 节点 ， 每 个 节点 具有 32GB 的 内 存 。 
这 些 操作 节点 主要 用 于 功能 性 操作 ， 而 服务 节点 用 于 作业 创建 和 提交 ， 它 们 并 不 是 作为 通用 目的 计 
算 节点 。 其 速度 并 不 影响 峰值 或 持续 计算 速度 。Tianhe-1A 的 峰值 速度 为 3. 692 Pflops'"]。 它 在 4 个 
子 系统 中 共 采 用 了 7 168 个 计算 节点 (448 个 CUDA 核 /GPU/ 计 算 节 点 ) 14 236 个 六 核 CPU, 














7168( 节 点 ) x (CPU) x 2.93(GHz) x 6( 核 ) x 4 
=1.008Pflops 






图 2-26 Tianhe-1A 理论 峰值 速度 的 计算 


该 系统 通过 Lustre 集群 文件 系统 实现 了 总 共 2PB 的 磁盘 存储 。 该 集群 系统 中 共 分 布 了 262TB 
的 主 内 存 。Tianhe-1A 体现 了 现代 异 构 CPU/GPU 计算 ,在 性 能 、 规 模 和 电能 方面 取得 显著 成 
绩 。 该 系统 原本 只 使 用 CPU， 需 要 50 000 多 个 CPU 以 及 2 倍 工作 空间 来 实现 相同 的 性 能 。 一 
个 2. 507 Pflops 的 系统 全 部 使 用 CPU 的 功率 至 少 为 1 200 万 瓦特 ， 这 比 Tianhe-1A 的 功率 消耗 
多 3 倍 。 

2.5.1.3 ARR RIERA BEA 

Tianhe-1A 的 高 性 能 归功 于 由 NUDT 定制 设计 的 互 连 体 系 结构 。 该 体系 结构 使 用 InfiniBand 
DDR 4X 和 97TB 的 内 存 。 胖 树 体系 结构 如 图 2-27 所 示 。 双 向 带宽 为 160Gbps， 大 约 是 相同 数目 
节点 上 QDR InfiniBand 网 络 带宽 的 2 倍 。 该 结构 有 1. 57 微 秒 的 节点 跳跃 延迟 和 61Tb/s 的 集群 化 
带宽 。 在 胖 树 结构 的 第 一 层 ，16 个 节点 由 一 个 16 口 的 交换 板 连接 。 在 第 二 层 ， 所 有 部 件 都 连接 

到 11 个 384 口 的 交换 机 。 路 由 器 和 网 络 接口 芯片 由 NUDT 团队 设计 。 


第 2 章 ”可 扩展 并 行 计 算 集群 79 


交换 机 
















FEE 


* * 








图 2-27 高 带宽 交换 两 个 级 别 上 的 胖 树 互 连 体系 结构 
2.5.1.4 软件 栈 
Tianhe-1A 上 的 软件 栈 在 高 性 能 系统 中 具有 代表 性 。 它 使 用 由 NUDT 开发 的 操作 系统 Kylin 
Linux, XÆ 2006 年 顺利 通过 中 国 863 高 新 技术 研究 与 发 展 项 目 办 公 室 的 批准 。Kylin 基于 Mach 
和 FreeBSD ， 兼 容 其 他 主流 操作 系统 ， 并 且 支 持 多 个 微 处 理 器 以 及 不 同 结构 的 计算 机 。Kylin 软 
件 包 包括 标准 开源 和 公共 软件 包 ， 使 得 系统 便于 安装 。 图 2-28 描述 了 ,Tianhe-1A 的 软件 体系 
结构 。 


可 视 化 系统 





图 2-28 Tianhe-1A 超级 计算 机 的 软件 体系 结构 [1 


该 系统 具有 来 自 Intel (icc 11.1), CUDA, OpenMP 的 FORTRAN, C, C++ 和 Java 编译 器 ， 
并 得 到 MPICH2 与 CLEX (Galaxy Express) 通道 的 支持 。NUDT 建立 者 开发 了 数学 库 ， 该 数学 库 
基于 Intel 的 MKL 10. 3. 1.048 和 NVIDIA GPU 上 的 BLAS， 并 由 NUDT 优化 。 此 外 ， 高 效 并 行 运行 
环境 (HPPRE) 也 被 安装 。 系 统 也 提供 了 基于 Eclipse 的 并 行 工 具 包 ， 用 于 整合 各 种 编辑 、 调 试 
和 性 能 分 析 工 具 。 此 外 ， 设 计 师 提供 了 对 服务 质量 (QoS) 评判 和 资源 预定 的 工作 流 支 持 。 

2.5.1.5 能 耗 、 空 间 和 成 本 

Tianhe-1A 能 耗 在 轻 负 载 时 为 4. 04MW ( 兆 瓦 ) 。 该 系统 占 地 面积 700 平方 米 ， 并 由 采用 加 压 
气流 的 分 体 水 冷却 系统 降温 。 该 混合 体系 结构 消耗 较 少 的 电能 一 一 大 约 是 12MW 的 三 分 之 一 ， 


80 ”第 一 部 分 “系统 建 模 、 集 群 化 和 虚拟 化 


其 中 12MW 是 整个 系统 全 采用 多 核 CPU 的 能 耗 。 整 个 系统 的 预算 是 6 亿 人 民 币 〈 约 9 000 万 美 
元 ); 2 亿 元 人 民 币 来 自 于 科学 技术 部 (MOST) ，4 亿 元 来 自 于 天 津 当地 政府 。 每 年 大 约 需 要 
2 000 万 美元 的 费用 来 运行 、 维 护 和 冷却 该 系统 。 

2.5.1.6 Linpack 基准 测试 结果 和 应 用 计划 

Æ 2010 年 10 月 30 A, Tianhe-1A 的 Linpack 基准 测试 性 能 为 2.566 Pflops/s， 其 中 规模 为 


3 600 000, N,. =1 000 000。 系 统 运行 的 总 时 间 是 3 小 时 22 分 钟 ， 效 率 为 54. 58% ， 远 低 于 Jaguar 和 


Roadrunner 的 75% 的 效率 。 下 面 是 Tianhe-1A 的 一 些 应 用 ， 大 部 分 经 过 特别 设计 以 满足 国家 的 需要 。 
ə 并 行 AMR (Adaptive Mesh Refinement, HEMAKA) 方法 。 

并 行 特征 值 问 题 。 

并 行 快 速 多 级 方法 。 

并 行 计算 模型 。 

Gridmol 计算 化 学 。 

ScGrid 中 间 件 、 网 格 门户 。 

PSEPS 并 行 对 称 特征 值 封装 解决 。 

雷达 截面 的 FMM-radar 快速 多 级 方法 。 

移植 大 量 开 源 软 件 程序 。 

沙尘暴 预测 、 气 候 模型 、 电 磁 散 射 或 宇宙 学 。 

汽车 制造 业 中 的 CAD/CAE, 

2.5.2 Gray XT5 Jaguar: 2009 年 的 领先 超级 计算 机 
2010 46 H, Æ ACM 超级 计算 会 议 发 布 的 Top500 名 单 中 ，Cray XTS Jaguar 是 世界 上 最 快 的 

超级 计算 机 。 在 2010 年 11 月 发 布 的 Top500 名 单 中 ，Cray XT5 Jaguar 被 中 国 Tianhe-1A A(t, Æ 

为 快速 超级 计算 机 的 第 二 名 ， 它 是 由 Gray 股份 有 限 公 司 构 建 的 可 扩展 MPP ABE, Jaguar 属于 
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Gray 的 系统 模型 XT5- HE。 系 统 安装 在 隶属 于 美国 能 源 部 门 的 橡树 岭 国家 实验 室 ， 整 个 Jaguar A 








统 共有 86 个 机 柜 。 下 面 是 Jaguar 系统 的 一 些 有 趣 体 系 结构 和 操作 特征 : 
e H AMD 六 核 Opteron 处 理 器 组 成 ， 以 2. 6GHz 的 时 钟 频率 运行 Linux, 
o 总 共有 224 162 个 处 理 器 核 ， 超 过 37 360 个 处 理 器 ， 分 布 于 4 排 共 88 个 机 柜 中 (每 个 机 
FEAT 1 536 或 2 304 个 处 理 器 ) 。 
e 8 256 个 计算 节点 和 96 个 服务 节点 通过 3D 环形 网 络 互 连 ， 环 形 网 络 由 Cray SeaStar2 + ih 
片 组 成 。 
o 其 持续 速度 Roo TE Linpack 基准 测试 中 为 1. 759Pflops。 
© 最 大 的 Linpack 测试 矩阵 规模 记录 为 W... =5 474 272 RAL 
系统 的 基本 构建 模块 是 计算 叶片 。SeaStar + 芯片 〈 见 图 2-29) 中 的 互 连 路 由 器 提供 了 3D 环 
形 网 络 中 的 6 条 高 速 链接 ， 如 图 2-30 所 示 。 该 系统 可 由 小 型 配置 扩展 至 大 型 配置 。 整 个 系统 具 
有 129TB 的 计算 内 存 。 理 论 上 ， 系 统 的 峰值 速度 为 只. = 2.331 Pflops。 换 句 话说 ，Linpack 实验 
只 实现 了 75% (= 1.759/2.331) 的 效率 。 对 外 IO 接口 使 用 10Gbps 以 太 网 和 InfiniBand 连接 。 
消息 传递 编程 使 用 MPI 2. 1。 系 统 能 耗 为 32 ~ 43 千瓦 /机 柜 。 当 有 160 个 机 柜 时 ， 整 个 系统 的 能 
耗 高 达 6. 950MW。 系 统 使 用 强制 冷风 降温 ， 这 也 会 消耗 大 量 电 能 。 
2.5.2.1 3D 环形 互 连 
图 2-30 显示 了 系统 的 互 连 体系 结构 。Gray XTS 系统 使 用 Cray SeaStar2 + 路 由 器 芯片 集成 高 带 
宽 低 延迟 互 连 。 该 系统 由 具有 8 MAMAS XTS 计算 叶片 配置 而 成 ， 并 支持 双核 或 四 核 Opterons。 
XTS 使 用 3D 环形 网 络 拓扑 结构 ，SeaStar2 + 芯片 提供 了 6 个 高 速 网 络 链接 ， 连 接 3D 环形 网 络 中 
的 6 个 邻居 。 每 个 连接 的 双向 峰值 带宽 是 9. 6GB/s， 持 续 带宽 超 过 6GB/s。 每 个 端口 由 独立 的 路 
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Cray SeaStar2+ 
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图 2-30 Gray XT5 Jaguar 超级 计算 机 的 3D 环形 互 连 
注 : 由 Gray AD!) 和 美国 橡树 岭 国家 实验 室 提 供 ，2009。 


由 表 配 置 ， 保 证 无 冲突 存 取 数 据 包 。 

路 由 器 采用 支持 纠 错 和 重 传 的 可 靠 链 路 层 协议 ， 保 证 消息 传递 通信 到 达 它 的 目的 地 ， 而 不 
采用 典型 集群 中 的 暂停 和 重 试 机 制 。 环 形 互 连 直接 连接 Cray XS 系统 中 的 所 有 节点 ， 降 低 了 外 
部 交换 的 成 本 与 复杂 性 ， 并 且 容 易 扩展 。 这 人 允许 系统 很 好 地 扩展 为 成 千 上 万 个 节点 ， 远 远 超越 胖 
树 交 换 的 能 力 。 互 连 实现 了 在 全 局 文件 系统 的 消息 传递 和 IO 通信 。 

2.5.2.2 硬件 封装 

Cray XT5 系列 使 用 了 节能 封装 技术 ,减少 能 源 消耗 ， 从 而 降低 维护 成 本 。 系 统 的 计算 叶片 只 
封装 了 必需 组 件 ， 使 用 处 理 器 、 内 存 和 互 连 构 建 MPP。 在 Gray XTS 机 柜 中 ， 垂 直 冷 却 直接 从 源 
A (E) 接收 冷 空气 ， 并 有 效 地 冷却 时 片上 的 处 理 器 ， 叶 片 位 于 最 佳 气流 的 特定 位 置 。 每 个 
处 理 器 也 有 定制 的 散热 器 ， 在 机 柜 内 依附 于 它 的 旁边 。 每 个 Gray XTS 系统 机 柜 使 用 单个 高 效 的 
小 型 涡轮 风扇 降温 ， 它 需要 直接 从 电网 获取 400/480VAC， 以 避免 变压器 和 PDU 损失 。 
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Cray XT5 3D 环形 体系 结构 被 设计 用 于 实现 HPC 应 用 的 优秀 MPI 性 能 。 这 通过 集成 专用 的 计 
算 节 点 和 服务 节点 来 实现 。 计 算 节 点 用 于 高 效 运行 MPI 任务 ， 并 可 靠 地 完成 这 些 任务 。 每 个 计 
算 节 点 由 一 个 或 两 个 AMD Opteron 微 处 理 器 〈 双 或 四 核 ) 、 直 接连 接 内 存 和 专用 通信 资源 组 成 。 
服务 节点 用 来 向 系统 提供 IO 连通 性 ， 并 如 同 登录 节点 一 样 ， 协 助 作业 编译 与 启动 。 每 个 计算 节 
点 的 IO 带宽 被 设计 为 25.6 GB/s, 
2. 5.3 IBM Roadrunner: 2008 年 的 领先 超级 计算 机 

2008 年 ，IBM Roadrunner 是 世界 上 第 一 台 达 到 千 万 亿 次 性 能 的 通用 计算 机 系统 。 该 系统 
Linpack 性 能 为 1. 456Pflops， 安 装 在 新 墨西哥 州 的 洛斯 阿拉 黄 斯 国家 实验 室 (LANL). Bia, € 
2009 4EX, Cray 的 Jaguar 超越 了 Roadrunner, IBM Roadrunner 主要 用 于 评估 美国 核武 库 的 衰变 ， 
其 系统 为 混合 设计 ， 具有 12 960 个 IBM 3.2 GHz PowerXcell 8i CPU (图 2-31) 和 6 480 个 AMD 
1.8 GHz Opteron 2210 双核 处 理 器 。 系 统 共 有 122 400 个 处 理 器 核 。Roadrunner 是 一 个 Opteron 集 
群 ， 由 8 个 浮 点 核 的 1BM Cell 处 理 器 加 速 。 








Unit ID | 


PPE 











BEI 单元 宽带 引擎 接口 MIC 内 存 接口 控制 器 
EB ”元 件 互 连 总 线 PPE PowerPC 处 理 器 元 件 
FlexIO Rambus flexIO 总 线 RAM 资源 分 配 管理 

IOIF IO 接口 SPE 协同 处 理 器 元 件 


XIO Rambus XDR LO(XIO) 单 元 


图 2-31 IBMCell 处 理 器 体系 结构 的 原理 图 
32; 由 IBM 提供 ，http://www. redbooks. ibm. com/redpapers/ pdfs/redp4477. pdf!?8! 。 


2.5.3.1 处 理 器 芯片 和 计算 叶片 设计 
Cell/B. E. 处 理 器 提供 非凡 的 计算 能 力 ， 可 以 利用 单一 多 核 芯 片 。 如 图 2-31 所 示 ，Cell/ 
B. E. 体系 结构 支持 非常 广泛 的 应 用 。 单 芯片 多 处 理 器 实现 了 9 个 处 理 器 元 件 运行 在 一 个 共享 内 

存 模型 上 。TriBlade 服务 器 通过 InfiniBand 网 络 连 接 ， 组 成 了 机 架 。 为 了 保持 这 种 计算 能 力 ， 每 
个 节点 的 连通 由 4 个 PCI Express x8 链接 组 成 ， 每 个 链接 具有 2GB/s 传送 速率 ， 并 有 2hs 的 延迟 。 
YD FEAL IG InfiniBand 互 连 ， 人 允许 与 集群 的 其 余部 分 通信 。InfiniBand 互 连 的 速度 为 2GB/s， 
延迟 为 2us。 

2.5.3.2 InfiniBand 互 连 

Roadrunner 集群 是 层次 结构 的 。InfiniBand 为 集群 提供 交换 功能 ， 连 接 270 个 机 架 中 的 18 个 
单元 。 总 之 ， 整 个 集群 连接 12 960 个 IBM Power XCell 8i 处 理 器 和 6 480 个 Opteron 2210 处 理 器 ， 
共有 103. 6TB 的 RAM。 此 集群 提供 了 约 1. 3Pflops 的 性 能 。 此 外 ， 系 统 的 18 个 Com/Service 节点 
使 用 18 个 InfiniBand 交换 机 ， 提 供 了 4. STflops 的 性 能 。 第 二 存储 单元 采用 8 个 InfiniBand 交换 机 
连接 。 总 体 上 ， 系 统 中 共 安 装 了 296 个 机 架 。 分 层 结构 按 两 个 级 别 构造 。 该 系统 消耗 2.35 MW 
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的 电能 ， 名 列 2009 年 建造 的 最 节能 超级 计算 机 的 第 4 位 。 

2.5.3.3 消息 传递 性 能 

Roadrunner 使 用 MPI API 与 其 他 Opteron 处 理 器 通信 ， 应 用 程序 以 典型 的 单程 序 多 数据 
(SPMD) 形式 运行 。 运 行 此 应 用 程序 的 计算 节点 数目 在 程序 启动 时 确定 。Roadrunner 的 MPI 实现 
是 基于 开源 Open MPI 项 目的 ， 因 此 是 标准 MPI。 在 这 方面 ，Roadrunner 应 用 程序 与 其 他 典型 MPI 
应 用 类 似 ， 如 那些 运行 于 IBM Blue Gene 的 解决 方案 。Roadrunner 与 应 用 体系 结构 领域 的 不 同 之 
处 是 如 何 使 用 Cell/B. E. 加 速 器 。 在 应 用 流 的 任何 时 候 ， 每 个 Opteron 上 运行 的 MPI 应 用 程序 能 
够 分 发 复杂 计算 逻辑 至 其 下 属 Cell/B. E. 处 理 器 。 


2.6 参考 文献 和 习题 


自 1990 年 以 来 ， 集 群 计 算 一 直 是 热点 研究 领域 。 集 群 计算 由 DEC 和 IBM 倡导 ， 发 表 于 
Pfister[26] 。 该 书 提供 了 若干 关键 概念 的 很 好 介绍 ， 包 括 SSI 和 HA。 历 史上 ， 计 算 机 集群 的 里 程 
碑 包 括 运行 VMS/OS 的 VAXcluster (1984)、Tandem Himalaya HA 集群 (1994) M IBM SP2 集群 
(1996) 。 这 些 早 期 的 集群 在 文献 [3，7，14，23 ，26] 有 所 介绍 。 近 年 来 ， 超 过 85% 的 Top500 系 
统 都 采用 了 集群 配置 [1 7028.28.29 o 

每 一 年 ，IEEE 和 ACM 举行 几 次 国际 会 议 讨论 相关 课题 。 它 们 包括 “Cluster Computing” 
(Cluster), “Supercomputing Conference” (SC), “International Symposium on Parallel and Distributed 
Systems” (IPDPS), “International Conferences on Distributed Computing Systems” (ICDCS), “High- 
Performance Distributed Computing” (HPDC) #1 “Clusters, Clouds, and The Grids” (CCGrid), 。 同 
时 也 有 与 此 课题 相关 的 几 个 杂志 ， 包 括 《Journal of Cluster Computing), Journal of Parallel and 
Distributed Computing) (JPDC) 和 《IEEE Transactions on Parallel and Distributed Systems) (TPDS) 。 

Bader +5 Pennington”! 评测 了 集群 应 用 程序 。 本 章 部 分 数据 和 实例 从 Hwang Al Xu!” 2 Bt AO 
中 修改 得 来 。Buyya 将 集群 计算 分 为 两 个 章节 编辑 ”。 关 于 Linux 集群 的 两 本 书 是 文献 [20，23 ] 。 
HA 集群 在 文献 [24] 中 有 介绍 。 最 近 的 HPC 互 连 评估 可 以 在 文献 [6，8，12，22] 中 找到 。 谷 歌 
集群 互 连 由 Barroso 等 人 发 表 ”。 超 级 计算 机 的 GPU 在 文献 [ 10] 中 讨论 。GPU 集群 在 文献 [19] 
中 介绍 。GPU 的 CUDA 并 行 编程 可 参见 文献 [31] 。 集 群 或 网 格 计 算 的 MOSIX/OS 可 参见 文献 [4， 
5, 30]. 

Hwang, Jin 和 Ho 开发 了 一 种 分 布 式 RAID 系统 ， 以 实现 个 人 计算 机 或 工作 站 集群 的 单一 IO 
SET, LSF 的 更 多 细节 可 以 参见 Zhou[35] 。Top500 名 单 采用 了 2010 年 6 月 和 11 月 的 发 布 
4852) 。Tianhe-1A 的 资料 可 以 在 Dongarra[ 11] 和 Wikipedia[29] 上 找到 。IBM Blue Gene/L 体系 
结构 由 Adiga 等 人 发 表 ”， 随 后 被 设计 为 更 新 的 模型 ， 称 为 Blue Gene/P 解决 方案 。IBM 
Roadrunner 由 Kevin FARE ， 也 可 以 参见 Wikipedia[ 28], Cray XT5 和 Jaguar 系统 在 文献 [9] 
中 描述 。 中 国 Nebulae 超级 计算 机 发 表 于 文献 [27] 。 具 体 的 集群 应 用 程序 和 检查 点 技术 可 以 参见 
文献 [12，16，17，24 ，32，34 ] 。 集 群 应 用 可 以 参见 文献 [7, 15, 18, 21, 26, 27, 33, 34]. 
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习题 
2.1 区 分 并 举例 说 明 以 下 集群 的 相关 术语 ; 
a， 紧 凑 集 群 和 松弛 集群 
b 集中 式 集群 和 分 散 集群 
c 同 构 集 群 和 异 构 集群 
d 封闭 集群 和 开放 集群 
e 专用 集群 和 企业 集群 
2.2 ”本题 与 宛 余 技术 相关 。 假 设 当 一 个 节点 失效 时 ， 它 需要 10s 诊断 故障 ， 并 需要 30s 转移 其 负载 。 
a 如 果 忽 略 计划 停机 时 间 ， 集 群 的 可 用 性 如 何 ? 
b 如 果 集 群 每 周 需 要 一 小 时 的 停机 维护 时 间 ， 但 每 次 只 有 一 个 节点 ， 集 群 的 可 用 性 又 如 何 ? 
2.3 这 是 一 个 评测 近年 来 构建 的 4 个 超级 计算 机 的 集群 体系 结构 的 研究 项 目 。 研 究 2010 年 11 月 发 布 的 
Top500 名 单 中 排名 第 1 的 超级 计算 机 ( 即 Tianhe-1A) 的 相关 细节 。 你 的 研究 应 包括 以 下 内 容 : 
a. 深入 评估 Tianhe-1A 体系 结构 、 硬 件 组 成 、 操 作 系 统 、 软 件 支持 、 并 行 编译 器 、 封 装 、 冷 却 和 新 型 
应 用 。 
b. 比较 Tianhe-1A 与 在 2.5 节 中 介绍 的 Jaguar, Nebulae 和 Roadrunner， 分 析 Tianhe-1A 的 相对 优势 和 局 
限 性 。 如 果 你 找到 充足 的 基准 测试 数据 进行 比较 研究 ， 可 以 用 电子 表格 或 曲线 图 表示 。 
2.4 本题 包括 与 集群 计算 相关 的 两 个 部 分 : 
1. 定义 并 区 分 下 列 可 扩展 性 术语 : 
a. 机 器 规模 上 的 可 扩展 性 
b. 问题 规模 上 的 可 扩展 性 
co 资源 可 扩展 性 
d. 世代 可 扩展 性 
2. 解释 三 种 可 用 集群 配置 ( 热 备 份 、 主 动 接管 和 容错 集群 ) 之 间 体 系 结构 和 功能 差异 。 给 出 每 种 可 用 
集群 配置 的 两 个 商用 集群 系统 示例 。 评 价 在 商业 应 用 中 ， 它 们 的 相对 优势 和 缺点 。 
2.5 基于 结构 、 资 源 共享 和 处 理 器 间 通 信 ， 说 明 多 处 理 器 和 多 计算 机 之 间 的 区 别 。 
a. 解释 UMA, NUMA, COMA, DSM 和 NORMA 内 存 模型 间 的 差异 。 
b. 相 较 于 传统 的 自主 计算 机 网 络 ， 集 群 有 什么 额外 的 功能 特征 ? 
c 传统 SMP 服务 器 上 的 集群 系统 有 什么 优点 ? 
2.6 研究 表 2-6 列 出 的 5 个 虚拟 集群 研究 项 目 ， 并 根据 2. 5.3 节 和 2.5.4 节 中 COD 和 Violin 的 相关 经 验 回 
答 下 列 问题 : 
a. 从 动态 资源 供应 的 角度 ， 根 据 公开 的 文献 评估 这 S 个 虚拟 集群 ， 并 讨论 它们 的 相对 优势 与 缺点 。 
b. 记录 这 5 个 虚拟 集群 在 硬件 配置 、 软 件 工具 和 开发 实验 环境 ， 以 及 发 布 的 性 能 结果 这 些 方面 的 独特 贡献 。 
2.7 本 题 涉及 在 构建 HPC 系统 过 程 中 ， 高 端 286 处 理 器 的 使 用 。 回 答 下 列 问题 : 
a 根据 最 新 的 超级 计算 机 系统 Top500 名 单 ， 所 有 的 系统 均 使 用 x86 处 理 器 。 识 别处 理 器 模型 和 关键 处 
理 器 特性 ， 如 核 的 数目 、 时 钟 频率 和 预计 性 能 。 
b. 有 些 采用 GPU 来 补充 x86 CPU。 识 别 这 些 具有 大 量 GPU 的 系统 。 讨 论 在 提供 Hops/ 美 元 的 峰值 或 者 
持续 速度 过 程 中 ，GPU- 所 起 的 作用 。 
2.8 假设 一 个 顺序 计算 机 具有 512MB 的 主 内 存 和 足够 的 磁盘 空间 。 对 大 规模 数据 块 ， 其 磁盘 读 / 写 带 宽 是 
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2.9 


2.11 


2.12 


2.14 


1MB/s。 下 面 的 代码 需要 应 用 检查 点 : 


do 1000 iterations 


A = foo (C from last iteration) /* this statement takes 10 minutes */ 
B = goo (A) /* this statement takes 10 minutes */ 

C = hoo (B) /* this statement takes 10 minutes */ 

end do 


A, B AIC 分别 都 是 120MB 的 数组 。 所 有 代码 的 其 余部 分 、 操 作 系统 和 库 ， 最 多 占用 16MB 的 内 存 。 

假设 计算 机 恰好 失效 一 次 ， 并 且 忽 略 恢复 计算 机 的 时 间 。 

a、 如 果 执 行 检 查 点 ， 成 功 运 行 该 代码 的 最 坏 执行 时 间 是 多 少 ? 

b. 如 果 简 单 透明 地 执行 检查 点 ， 成 功 运行 该 代码 的 最 坏 执行 时 间 又 是 多 少 ? 

c. 在 (b) 中 使 用 分 支 检查 点 是 否 有 帮助 ? 

d 如 果 执 行 用 户 指导 的 检查 点 ， 该 代码 的 最 坏 执行 时 间 是 多 少 ? 在 代码 中 显示 加 入 用 户 指示 的 位 置 。 

e 如果 在 (b) 中 使 用 分 支 检 查 点 ， 该 代码 的 最 坏 执行 时 间 是 多 少 ? 

比较 最 新 Top500 名 单 和 HPC 系统 的 Top500 绿色 名 单 。 讨 论 在 能 源 效率 和 冷却 成 本 方面 的 小 部 分 赢家 

与 输家 。 显 示 绿 色 能 源 赢家 的 故事 ， 并 记录 使 他 们 获胜 的 特殊 设计 特点 、 封 装 、 冷 却 及 管理 策略 。 为 

什么 两 张 名 单 的 排名 顺序 是 不 同 的 ? 根据 公开 的 资料 ， 讨 论 其 原因 和 意义 。 

本 题 关 系 到 为 了 构建 最 新 Top500 名 单 中 三 大 具有 商业 互 连 的 集群 系统 ， 所 使 用 的 处 理 器 和 系统 互 连 。 

a 在 潜在 峰值 浮 点 性 能 方面 ， 比 较 这 些 集群 使 用 的 处 理 器 ,并 且说 明 它 们 的 优势 和 缺点 。 

b 比较 这 三 个 集群 的 商业 互 连 。 讨 论 在 拓扑 属性 、 网 络 延迟 、 对 分 带宽 和 硬件 使 用 方面 ， 它 们 的 潜 
在 性 能 。 

学 习 例 2. 6 及 其 原始 文章 [14] 发 表 的 分 布 式 RAID-x 体系 结构 和 性 能 结果 。 根 据 技术 上 理由 或 证 据 

回答 下 列 问题 : 

a 解释 在 连接 到 集群 节点 的 分 布 式 磁盘 上 ，RAID-x 系统 如 何 实现 单 O 地 址 空间 。 

b. 解释 在 RAID-x 系统 中 实现 的 协同 磁盘 驱动 器 (CCD) 的 功能 。 基 于 目前 的 PC 体系 结构 、SCSI 总 
线 和 SCSI 磁盘 技术 ， 评 论 它 的 应 用 需求 和 可 扩展 性 。 

c 解释 为 什么 RAID-x 具有 和 RAID-5 体系 结构 相同 的 容错 能 力 。 

d 通过 与 其 他 RAID 体系 结构 比较 ， 解 释 RAID-x 的 优势 和 局 限 性 。 

根据 2.2 节 和 2.5 节 的 相关 材料 ， 比 较 2009 年 11 月 发 布 的 Top500 和 名单 中 ，IBM Blue Gene/L, IBM 

Roadrunner 和 Cray XTS 超级 计算 机 的 系统 互 连 。 深 入 了 解 这 些 系统 的 细节 。 这 些 系统 的 互 连 可 以 使 

用 定制 的 路 由 器 。 部 分 也 使 用 一 些 商 业 互 连 及 组 件 。 

a 在 技术 、 芯 片 设 计 、 路 由 机 制 和 消息 传递 性 能 方面 ， 比 较 这 三 个 系统 互 连 所 使 用 的 基本 路 由 器 或 
交换 机 。 

b、 比 较 这 三 个 系统 互 连 的 拓扑 性 质 、 网 络 延 迟 、 对 分 带宽 及 硬件 封装 。 

学 习 由 SGI 构建 的 最 新 、 最 大 的 商业 HPC 集群 系统 ， 并 依据 下 列 技术 和 基准 测试 记录 集群 体系 结构 : 

a. SGI 系统 模型 及 其 说 明 是 什么 ?用 块 范式 说 明 集群 体系 结构 并 描述 每 个 模块 的 功能 。 

b. 讨论 由 SGI 公布 的 峰值 性 能 及 持续 性 能 。 

c 采用 了 什么 独特 硬件 、 软 件 、 网 络 或 设计 特点 而 实现 (b) 中 性 能 ?描述 或 说 明 这 些 系统 特征 。 

考虑 图 2-32 中 的 服务 器 -客户 端 集群 中 两 台 相 同 服务 器 之 间 的 主动 接管 配置 。 其 中 服务 器 通过 SCSI 

总 线 共享 磁盘 。 客 户 端 (PC 或 工作 站 ) 和 以 太 网 不 会 失效 。 当 一 台 服 务 器 失效 时 ， 它 的 负载 将 被 转 

移 至 运行 的 服务 器 。 

a 假定 每 台 服 务 器 的 MTTF 为 200 天 ，MTTR AS KR. RARI MTTF 为 800 天 ，MTTR 为 20 天 。 此 外 ， 
每 台 服 务 器 由 于 维护 每 周 需要 被 关闭 一 天 ， 在 此 期 间 服务 器 被 认为 是 不 可 用 的 。 每 次 只 关闭 一 台 
服务 器 。 失 效率 包括 正常 失效 和 定期 维护 。SCSI 总 线 的 失效 率 为 2% 。 服 务 器 和 磁盘 的 失效 相互 
独立 。 磁 盘 和 SCS] 总 线 并 没有 计划 关闭 。 客 户 端 机 器 永远 不 会 失效 。 

1. 只 要 至 少 有 一 台 服 务 器 可 用 ， 服 务 器 便 被 认为 是 可 用 的 。 两 台 服 务 器 的 组 合 可 用 性 是 什么 ? 
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2. 在 正常 操作 中 ， 集 群 必须 同时 有 SCS] 总 线 、 磁 盘 和 至 少 一 台 可 用 的 服务 器 。 在 该 集群 中 ， 单 点 
失效 的 可 能 性 如 何 ? 
b 该 集群 不 能 接受 两 台 服 务 器 在 同一 时 间 失效 。 此 外 ， 当 SCSI 总 线 或 磁盘 发 生 故障 时 ， 集 群 被 认为 
是 不 可 用 的 。 基 于 上 述 情况 ， 整 个 集群 的 系统 可 用 性 如 何 ? 
c 在 上 上述 失 效 和 维护 的 情况 中 ， 提 出 一 种 改进 的 体系 结构 来 消除 (a) 的 所 有 单 点 失效 。 


SCSI 总 线 





磁盘 阵列 


图 2-32 具有 元 余 硬 件 的 HA 集群 


学 习 表 2-6 中 的 集群 作业 调度 策略 并 回答 下 面 的 问题 。 如 果 对 某 个 调度 策略 较为 陌生 ， 你 可 能 需要 从 
维基 百科 、 人 谷歌 或 者 其 他 来 源 获得 更 多 信息 。 

a 解释 非 抢占 和 抢占 调度 策略 的 优点 和 缺点 ， 并 给 出 修正 这 些 问题 的 方法 。 

b 基于 静态 和 动态 调度 策略 ， 重 新 回答 (a) 中 的 问题 。 

c. 基于 专用 和 共享 空间 调度 策略 ， 重 新 回答 《a) 中 的 问题 。 

d. 比较 分 时 、 独 立 和 组 调度 策略 的 相对 性 能 。 

e 相 较 于 远程 作业 ， 上 比较 本 地 作业 上 驻 留 和 迁移 策略 的 相对 性 能 。 

学 习 2.3 节 中 集群 的 SSI 特性 和 HA， 回答 下 面 的 问题 ， 并 给 出 原因 。 指 出 具有 这 些 特 性 的 部 分 实例 
集群 系统 。 评 论 它 们 的 实现 要 求 ， 并 讨论 在 集群 系统 中 实现 每 个 SSI 特征 的 操作 障碍 。 


a 集群 环境 的 单一 人 口 b. 集群 系统 的 单一 内 存 空间 

c 集群 系统 的 单 文件 层次 d 集群 系统 的 单一 VO 空间 

e 集群 系统 的 单一 网 络 空间 f 集群 系统 的 单一 联网 

g 集群 系统 的 单 点 控制 h. 集群 系统 的 单一 作业 管理 

L 集群 系统 的 单一 用 户 接口 j 集群 系统 的 单一 进程 空间 

用 例子 解释 集群 作业 管理 系统 的 下 列 方面 : 

a 串 行 作业 和 并 行 作 业 b. 批量 作业 和 交互 作业 

e 集群 作业 和 外 界 (本 地 ) 作业 d 集群 进程 、 本 地 进程 和 内 核 进程 
e 专用 模式 、 共 享 空 间 模 式 和 分 时 模式 E 独立 调度 和 组 调度 

这 道 题 关 注 于 LF 的 概念 : 


a. 给 出 4 种 LSF 作业 的 各 自 示例 。 

b. 在 1000 台 服 务 器 的 集群 中 ， 如 果 (1) 整个 集群 只 有 一 个 管理 者 LIM 或 者 (2) 所 有 的 LIM 均 为 
管理 者 ， 给 出 LSF 负载 共享 策略 较 好 的 两 个 原因 。 

c 在 LSF 管理 者 选举 机 制 中 ， 处 于 “ 非 管理 者 ”状态 的 某 节点 成 为 新 的 管理 者 前 的 等 待 时 间 与 节点 
数量 成 正比 。 为 什么 等 待 时 间 与 节点 数量 成 正比 ? 

本 题 涉及 集群 计算 中 MOSIX 的 使 用 。 查 阅 公开 文献 中 ， 了 解 由 设计 者 和 开发 者 提出 的 支持 Linux 集 

群 、GPU 集群 、 多 集群 甚至 虚拟 云 的 目前 特征 。 从 用 户 的 角度 讨论 其 优点 与 不 足 。 

在 体系 结构 设计 、 资 源 管理 、 软 件 环境 和 发 布 应 用 方面 ， 比 较 中 国 Tianhe-1A 和 Cray Jaguar 的 相对 优 

势 和 缺点 。 你 可 能 需要 进行 一 些 研究 ， 发 现 关于 这 些 系统 的 最 新 发 展 。 解 释 你 给 出 评价 的 原因 以 及 依 

据 的 信息 。 
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虚拟 机 和 集群 与 数据 中 心虚 拟 化 





虚拟 机 (VM) 的 再 次 兴起 为 并 行 计算 、 集 群 、 网 格 计算 和 分 布 式 计算 带 来 了 很 多 机 会 。 虚 
拟 化 技术 通过 在 同一 个 硬件 主机 上 多 路 复 用 虚拟 机 的 方式 来 共享 昂贵 的 硬件 资源 ， 为 计算 机 和 
IT 工业 带 来 很 多 益处 。 本 章 涵盖 虚拟 化 层次 、VM 体系 结构 、 虚 拟 网 络 、 虚 拟 集群 的 构建 和 云 计 
算 中 虚拟 化 数据 中 心 的 设计 与 自动 化 等 方面 的 问题 。 特 别 地 ， 本 章 将 重点 描述 使 用 虚拟 机 和 虚 
拟 集群 设计 动态 结构 化 的 集群 、 网 格 和 云 系统 。 


3.1 虚拟 化 的 实现 层次 


虚拟 化 是 一 种 计算 机 体系 结构 技术 ， 其 中 ， 多 个 虚拟 机 共享 同一 台 物 理 硬件 机 器 。 虚 拟 机 的 
思想 可 追溯 至 20 世纪 60 年 代 '”。 引 入 虚拟 机 的 目的 是 在 多 用 户 之 间 共 享 资源 并 提高 资源 利用 
效率 和 应 用 程序 灵活 度 。 硬 件 资源 (包括 CPU、 内 存 、L0 设备 等 ) 或 软件 资源 (操作 系统 和 软 
E) 可 以 在 不 同 的 功能 层 进行 虚拟 化 。 近 年 来 ， 随 着 分 布 式 和 云 计 算 技术 的 迅速 发 展 “1， 虚 
拟 化 技术 重新 兴起 。 

虚拟 化 的 基本 思想 是 分 离 软 硬 件 以 产生 更 好 的 系统 性 能 。 例 如 ， 在 刚 引 入 虚拟 内 存 的 概念 
时 ， 计 算 机 用 户 可 以 获得 更 大 的 内 存 空间 。 类 似 地 ， 虚 拟 化 技术 可 以 增强 计算 机 的 计算 、 网 络 和 
存储 功能 。 本 章 将 深入 讨论 虚拟 机 及 基于 虚拟 机 构建 分 布 式 系统 的 技术 。2009 年 Gartner 的 报告 
指出 ， 虚 拟 化 将 成 为 改变 整个 计算 机 产业 的 战略 性 技术 。 在 存储 足够 的 前 提 下 ， 在 一 台 物 理 主 机 
上 可 以 安装 任意 的 计算 机 平台 ， 甚 至 可 以 使 用 不 同 指令 集 的 处 理 器 ， 也 可 以 在 同一 个 物理 硬件 
上 运行 完全 不 同 的 操作 系统 。 

3.1.1 虚拟 化 实现 的 层次 

传统 计算 机 运行 着 与 其 硬件 体系 结构 很 适合 的 主机 操作 系统 ， 如 图 3-1a 所 示 。 引 入 虚拟 化 
后 ,不 同 用 户 应 用 程序 由 自身 的 操作 系统 〈( 即 客户 操作 系统 ) 管理 ， 并 且 那 些 客 户 操作 系统 可 
以 独立 于 主机 操作 系统 同时 运行 在 同一 个 硬件 上 ， 这 通常 是 通过 新 添加 一 个 称 为 虚拟 化 层 的 软 
件 来 完成 ， 该 虚拟 化 层 称 为 hypervisor 或 虚拟 机 监视 器 (Virtual Machine Monitor, VMM)'™!, 。 如 
图 3-1b 所 示 ， 虚 拟 机 处 于 上 面 框 中 ， 其 中 应 用 程序 与 其 自身 的 客户 操作 系统 运行 在 被 虚拟 化 的 
CPU, AFM O 资源 之 上 。 

虚拟 化 软件 层 的 主要 功能 是 将 一 个 主机 的 物理 硬件 虚拟 化 为 可 被 各 虚拟 机 互 斥 使 用 的 虚拟 
资源 ， 这 可 以 在 不 同 的 操作 层 实现 ， 下 面 我 们 将 进行 简短 讨论 。 虚 拟 化 软件 通过 在 计算 机 系统 的 
不 同 层 插入 虚拟 化 层 来 创建 虚拟 机 抽象 。 通 常 的 虚拟 化 层 包 括 指 令 集 体系 结构 《Instruction Set 
Architecture, ISA) 级 、 硬 件 抽 象 级 、 操 作 系 统 级 、 库 支持 级 和 应 用 程序 级 ， 如 图 3-2 所 示 。 

3. 1.1.1 指令 集体 系 结构 级 

在 ISA 级 ， 虚 拟 化 通过 使 用 物理 主机 的 ISA 模拟 一 个 给 定 的 ISA 来 进行 。 例 如 ，MIPS 二 进 
制 代 码 在 ISA 模拟 的 帮助 下 可 以 运行 在 一 个 基于 x86 的 物理 主机 上 。 通 过 这 种 方法 ， 就 可 以 在 任 
何 新 的 物理 硬件 主机 上 运行 大 量 遗留 的 、 为 不 同 处 理 器 所 写 的 二 进 制 代码 。 指 令 集 仿真 使 得 我 
们 可 以 在 任何 硬件 机 器 上 创建 虚拟 的 ISA, 
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应 用 程序 
主机 操作 系统 Ad 
硬件 虚拟 化 层 ( hypervisor 或 VMM ) 


运行 主机 操作 系统 的 硬件 








a ) 传统 计算 机 b) 虚拟 化 后 
图 3-1 虚拟 化 前 后 的 计算 机 系统 体系 结构 ， 其 中 ，VMM 代表 虚拟 机 监视 器 


JVM/.NET CLR/Panot 


库 支 持 (用 户 级 API ) 级 


WINE/ WABL LxRun / Visual MainWin / vCUDA 


应 用 程序 级 


操作 系统 级 


Jail / Virtual Environment / Ensim’s VPS / FVM 


硬件 抽象 级 
VMware / Virtual PC / Denali / Xen / L4 / 
Plex 86 / User mode Linux / Cooperative Linux 
指令 集体 系 结构 级 


Bochs / Crusoe / QEMU / BIRD / Dynamo 


图 3-2 从 硬件 到 应 用 程序 的 5 个 虚拟 化 抽象 层次 


基本 的 仿真 方式 是 代码 解释 。 解 释 程序 将 源 指令 逐条 解释 为 目标 指令 ， 一 条 源 指 令 可 能 需 
要 数 十 条 甚至 上 百 条 本 地 目标 指令 来 完成 其 功能 。 显 然 ， 该 过 程 相对 较 慢 。 为 了 获得 更 好 的 性 
能 ， 出 现 了 动态 二 进 制 翻译 。 该 方法 将 动态 源 指令 的 基本 块 转换 为 目标 指令 ， 基 本 块 也 可 以 扩充 
为 程序 踪迹 或 超级 块 来 增加 转换 的 有 效 性 。 指 令 集 仿 真 需要 进行 二 进 制 翻 译 和 优化 ， 因 此 ， 一 个 
虚拟 的 指令 集体 系 结 构 〈Virtual Instruction Set Architecture, V-ISA) 需要 在 编译 器 层 增加 一 个 处 
理 器 特定 的 软件 翻译 层 。 

3.1.1.2 硬件 抽象 级 

硬件 级 虚拟 化 直接 在 原始 硬件 之 上 进行 。 一 方面 ， 该 方法 为 一 个 虚拟 机 产生 一 个 虚拟 硬件 
环境 ; 另 一 方面 ， 虚 拟 化 进程 通过 虚拟 化 来 管理 下 面 的 硬件 。 该 方法 就 是 虚拟 化 一 个 计算 机 资 
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源 ， 如 处 理 器 、 内 存 和 LIAO 设备 ， 目 的 是 通过 多 个 并 行 用 户 来 改进 硬件 的 资源 利用 率 。 该 想法 在 
20 世纪 60 年 代 已 在 IBM VM/370 中 实现 。 近 些 年 来 ，Xen hypervisor 通过 虚拟 化 基于 x86 的 机 器 
来 运行 Linux 或 其 他 客户 操作 系统 应 用 程序 。 我 们 将 在 3. 3 节 详 细 讨 论 硬件 虚拟 化 方法 。 

3.1.1.3 操作 系统 级 

操作 系统 级 是 指 处 于 传统 操作 系统 和 用 户 应 用 程序 之 间 的 抽象 层 。 操 作 系 统 级 虚拟 化 利用 
数据 中 心中 的 软 硬 件 ， 在 一 个 单一 物理 服务 器 上 创建 隔离 的 容器 和 操作 系统 实例 ， 这 些 容 器 像 
真实 服务 器 一 样 运行 。 操 作 系统 级 虚拟 化 常 被 用 来 创建 虚拟 主机 环境 ， 在 大 量 互 斥 的 不 信任 用 
户 之 间 分 配 硬件 资源 。 在 较 小 程度 上， 也 可 以 通过 将 独立 主机 上 的 服务 移动 到 一 台 服 务 器 的 容 
器 或 虚拟 机 中 来 进行 服务 器 硬件 合并 。 操 作 系 统 级 虚拟 化 将 在 3. 1. 3 节 描 述 。 

3.1.1.4 库 支持 级 

大 部 分 应 用 程序 使 用 用 户 级 库 提供 的 API 而 非 操 作 系统 提供 的 完 长 的 系统 调用 。 由 于 大 部 分 
系统 提供 文档 完备 的 API， 这 样 的 接口 就 成 为 虚拟 化 的 另外 一 个 候选 。 通 过 API 钩子 控制 应 用 程 
序 和 其 他 系统 部 分 之 间 的 通信 连接 ， 使 得 带 有 库 接 口 的 虚拟 化 成 为 可 能 。 软 件 工具 WINE 就 实现 
了 这 种 方法 ， 它 支持 在 UNIX 主机 上 运行 Windows 程序 。 另 一 个 例子 是 vCUDA ， 它 允许 应 用 程序 
在 虚拟 机 中 执行 时 利用 GPU 的 硬件 加 速 功 能 。vCUDA 将 在 3. 1. 4 节 详 细 阐 述 。 

3.1.1.5 应 用 程序 级 

应 用 程序 级 的 虚拟 化 将 一 个 应 用 程序 虚拟 化 为 一 个 虚拟 机 。 在 传统 操作 系统 中 ， 应 用 程序 
常 以 进程 的 方式 运行 ， 因 此 ， 应 用 程序 级 虚拟 化 也 称 为 进程 级 虚拟 化 。 最 流行 的 方法 是 部 署 高 级 
48% (High Level Language, HLL) 虚拟 机 。 在 这 种 情况 下 ， 虚 拟 化 层 作为 一 个 应 用 程序 处 于 操 
作 系 统 之 上 ， 并 且 这 一 层 抽 象 出 一 个 虚拟 机 ， 该 虚拟 机 可 以 运行 为 一 个 特定 抽象 的 机 器 定义 所 
编写 和 编译 的 程序 ， 任 何 用 HLL 编写 并 为 这 个 虚拟 机 编译 的 程序 都 可 以 在 其 上 和 运行。 微软 的 
.NET CLR 和 Java 虚拟 机 是 该 类 型 虚拟 机 的 典型 例子 。 

其 他 形式 的 应 用 程序 级 虚拟 化 也 称 为 应 用 程序 隔离 、 应 用 程序 沙 盒 或 应 用 程序 流 。 虚 拟 化 
进程 将 应 用 程序 包装 在 与 主机 操作 系统 和 其 他 应 用 程序 相隔 离 的 一 个 层 ， 这 时 应 用 程序 更 易于 
发 布 或 从 用 户 工 作 站 移 除 。 这 方面 的 一 个 例子 是 LANDesk 应 用 程序 虚拟 化 平台 ， 它 将 应 用 程序 
软件 部 署 为 隔离 环境 中 的 自 包含 、 可 执行 文件 ， 且 无 需 安装 、 修 改 系统 或 提高 安全 级 别 。 

3.1.1.6 不 同方 法 的 相关 指标 

表 3-1 比较 了 在 不 同 级 别 实现 虚拟 化 的 相关 指标 。 表 头 对 应 于 4 个 技术 指标 。“ 高 性 能 ” 和 
“应 用 程序 灵活 性 ”无 需 解 释 , “实现 复杂 度 ” 是 指 在 特定 级 别 实现 虚拟 化 的 开销 ,，“ 应 用 程序 胎 
离 性 ”是 指 隔离 分 配给 不 同 虚拟 机 的 资源 的 难度 。 每 行 对 应 一 个 虚拟 化 级 别 。 

表格 中 X 的 数目 反应 了 每 个 实现 级 别 的 优势 。5 个 X 代表 最 好 情况 ，1 个 X 代表 最 坏 情 况 。 
总 体 来 讲 ， 硬 件 和 操作 系统 支持 的 性 能 最 好 ， 然 而 ， 硬 件 和 应 用 程序 级 也 最 难 实现 。 获 得 用 户 级 
隔离 最 难 。ISA 级 的 虚拟 化 可 以 提供 最 好 的 应 用 程序 灵活 度 。 


表 3-1 不 同 级 别 虚拟 化 的 相关 指标 〈(X 越 多 代表 指标 越 好 ， 最 多 5 个 X) 





实现 级 别 高 性 能 应 用 程序 灵活 性 实现 复杂 度 应 用 程序 隔离 性 
ISA 级 虚拟 化 x XXXXX XXX XXX 
硬件 级 虚拟 化 XXXXX XXX XXXXX XXXX 
操作 系统 级 虚拟 化 XXXXX XX XXX XX 
运行 时 库 支持 XXX XX XX XX 


用 户 应 用 程序 级 虚拟 化 XX XX XXXXX XXXXX 
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3.1.2 VMM 的 设计 需求 和 提供 商 

如 前 所 述 ， 硬 件 级 虚拟 化 在 真实 硬件 和 传统 操作 系统 之 间 插 入 一 层 软 件 ， 该 层 软件 通常 称 
为 虚拟 机 监视 器 (VMM) ， 它 负责 管理 计算 机 系统 的 硬件 资源 。 每 次 应 用 程序 访问 硬件 时 ， 
VMM 都 会 捕获 该 访问 请 求 。 从 这 个 意义 上 讲 ，VMM 就 像 一 个 传统 的 操作 系统 一 样 。 一 个 硬件 组 
件 〈 如 CPU) 可 被 虚拟 化 为 多 个 虚拟 的 副本 。 因 此 ， 许 多 不 同 或 相同 的 传统 操作 系统 可 以 同时 
运行 于 一 个 硬件 之 上 。 

对 VMM 有 三 个 需求 。 第 一 ，VMM 应 该 为 程序 提供 与 原始 硬件 机 器 基本 一 致 的 环境 ; 第 二 ， 
运行 在 该 环境 中 的 程序 的 性 能 损失 应 较 低 ; 第 三 ， 系 统 资源 应 处 于 VMM 的 完全 控制 之 中 。 任 何 
运行 在 VMM 中 的 程序 应 该 与 其 直接 运行 在 原始 物理 机 器 上 的 功能 表现 一 样 。 在 上 述 三 个 需求 下 
有 如 下 两 个 可 能 的 例外 ;由 系统 资源 可 用 性 导致 的 不 同和 由 定时 依赖 导致 的 不 同 。 当 多 于 一 个 
虚拟 机 同时 运行 在 一 台 机 器 上 时 ， 前 者 会 发 生 。 

每 个 虚拟 机 的 硬件 资源 需求 〈 例 如 内 存 ) 有 所 降低 ， 但 它们 的 总 和 却 大 于 安装 在 真实 机 器 
上 的 资源 量 。 因 为 软件 的 插 人 层次 和 其 他 虚拟 机 同时 存在 于 同一 个 硬件 上 的 影响 ， 所 以 前 面 提 
到 的 两 个 例外 是 必需 的 。 显 然 ， 这 两 个 不 同 与 性 能 相关 ,但 VMM 提供 的 功能 仍旧 与 真实 机 器 相 
同 。 然 而 ， 相 同 的 环境 需求 排除 了 将 通常 的 分 时 操作 系统 归 类 为 YMM 的 可 能 。 

在 使 用 虚拟 机 时 ，VYMM 应 具有 有 效 性 。 与 物理 机 器 相 比 ， 如 果 VMM 性 能 太 低 ， 则 会 无 人 
问津 。 传 统 的 仿真 器 和 完整 的 软件 解释 器 (模拟 器 ) 通过 函数 或 宏 仿真 每 条 指令 ， 这 种 方法 为 
VMM 提供 了 最 灵活 的 解决 方案 ， 但 若 实际 使 用 仿真 器 或 模拟 器 则 太 慢 。 为 保证 VMM 的 有 效 性 ， 
绝 大 部 分 虚拟 处 理 器 指令 需 直 接 在 真实 处 理 器 上 执行 ， 不 经 过 VMM 的 软件 干预 。 表 3-2 比较 了 
当前 常用 的 4 种 hypervisor 和 VMM., 

由 VMM 完全 控制 这 些 资 源 包括 以 下 方面 ;(1) VMM 负责 为 应 用 程序 分 配 硬 件 资源 ; (2) 程 
序 不 能 访问 任何 未 分 配给 它 的 资源 ; (3) 在 某 些 情况 下 ，VMM 可 以 获得 对 已 分 配 资源 的 控制 权 。 
并 非 所 有 处 理 器 都 满足 VMM 的 这 些 需求 。VMM 与 处 理 器 的 体系 结构 紧密 相关 ， 为 某 些 类 型 的 
处 理 器 (如 x86) 实现 VMM 较为 困难 。 限 制 包括 某 些 特权 指令 不 会 陷 人 。 如 果 一 个 处 理 器 并 非 
主要 用 于 虚拟 化 ,那么 就 很 有 必要 对 其 硬件 进行 修改 来 满足 VMM 的 上 述 三 个 要 求 ， 这 就 是 大 家 
所 熟知 的 硬件 辅助 虚拟 化 。 


表 3-2 4 种 VMM 和 hypervisor 软件 包 的 比较 
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3.1.3 操作 系统 级 的 虚拟 化 支持 

在 虚拟 化 技术 的 协助 下 ， 一 种 称 为 云 计算 的 新 计算 模式 正在 涌现 。 云 计算 改变 了 计算 方式 ， 
将 硬件 和 管理 计算 中 心 的 人 力 成 本 转移 到 与 银行 类 似 的 第 三 方 组织 。 然 而 ， 云 计算 至 少 面临 着 
两 个 挑战 。 第 一 个 挑战 是 根据 解决 问题 的 需要 改变 物理 机 器 和 虚拟 机 实例 数量 的 能 力 。 例 如 ， 一 
个 任务 在 某 个 执行 步 又 期 间 可 能 只 需要 一 个 CPU， 但 在 其 他 时 间 又 可 能 需要 上 百 个 CPU。 第 二 个 
挑战 与 缓慢 的 新 虚拟 机 初始 化 操作 相关 。 当 前 ， 新 虚拟 机 或 者 来 自 于 全 新 重启 ,或 者 复制 自 模板 虚 
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拟 机 ， 并 不 考虑 当前 应 用 的 状态 。 因 此 ， 为 更 好 地 支持 云 计算 ， 还 需 进 行 大 量 的 研究 和 开发 工作 。 

3.1.3.1 为 什么 在 操作 系统 级 虚拟 化 

如 前 所 述 ， 初 始 化 一 个 硬件 级 虚拟 机 很 慢 ， 因 为 每 个 虚拟 机 需 从 头 创 建 自 己 的 镜像 。 在 云 计 
算 环 境 中 ， 可 能 需要 同时 初始 化 上 千 个 虚拟 机 。 除 了 操作 较 慢 以 外 ， 虚 拟 机 镜像 的 存储 也 是 一 个 
问题 。 事 实 上 ， 在 虚拟 机 镜像 中 存在 大 量 重 复 内 容 。 而 且 ， 硬 件 级 的 全 虚拟 化 性 能 较 低 ， 可 以 运 
行 的 虚拟 机 较 少 ， 使 用 半 虚 拟 化 又 需要 修改 客户 操作 系统 。 为 降低 硬件 级 虚拟 化 的 性 能 开销 ， 甚 
至 需 修改 硬件 。 操 作 系统 级 虚拟 化 为 硬件 级 虚拟 化 存在 的 这 些 问 题 提供 了 一 种 可 行 的 解决 方法 。 

操作 系统 级 虚拟 化 在 一 个 操作 系统 中 插 人 一 个 虚拟 化 层 来 划分 机 器 的 物理 资源 。 它 使 得 在 
一 个 操作 系统 内 核 中 可 以 同时 运行 多 个 隔离 的 虚拟 机 。 这 种 虚拟 机 也 称 为 VE (Virtual Execution 
Environment ， 虚 拟 执行 环境 ) VPS (Virtual Private System， 虚 拟 专 用 系统 ) 或 容器 。 从 用 户 的 
视角 来 看 ，VE 就 像 真 实 服务 器 。 这 意味 着 VE 有 自己 的 进程 、 文 件 系统 、 用 户 账号 、 带 有 IP 地 
址 的 网 络 接口 、 路 由 表 、 防 火 墙 规则 及 其 他 个 人 设置 。 尽 管 VE 可 为 不 同 用 户 分 别 定 制 ， 但 它们 
仍 共享 同一 个 操作 系统 内 核 。 因 此 ， 操 作 系 统 级 虚拟 化 也 称 为 单 操作 系统 镜像 虚拟 化 。 图 3-3 展 
示 了 机 器 角度 的 操作 系统 虚拟 化 。 
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图 3-3 主机 操作 系统 之 中 的 OpenVZ 虚拟 化 层 ， 为 快速 创建 虚拟 机 提供 了 一 些 操作 系统 镜像 
注 ， 由 OpenVZ 用 户 手 册 [65] 提供 。 - 


3.1.3.2 操作 系统 扩展 的 优点 

与 硬件 级 虚拟 化 相 比 ， 操 作 系 统 扩展 有 如 下 两 方面 好 处 : (1) 操作 系统 级 虚拟 机 具有 最 小 的 
启动 或 停止 开销 ， 资 源 需 求 低 ， 可 扩展 性 强 ; (2) 对 操作 系统 级 虚拟 机 ， 当 需要 时 可 同步 虚拟 机 
和 其 主机 环境 状态 的 变化 。 这 些 好 处 可 以 通过 操作 系统 级 虚拟 化 的 两 个 机 制 来 达成 : (1) 在 同一 
台 物 理 主机 上 的 所 有 操作 系统 级 虚拟 机 共享 一 个 操作 系统 内 核 ; (2) 将 虚拟 化 层 设计 为 允许 虚拟 
机 中 的 进程 访问 尽 可 能 多 的 主机 资源 ， 但 不 允许 它们 修改 资源 。 在 云 计算 中 ， 上 述 两 个 好 处 可 以 
分 别克 服 在 硬件 级 初始 化 虚拟 机 慢 的 问题 和 对 当前 应 用 程序 状态 不 可 知 的 问题 。 
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3.1.3.3 操作 系统 扩展 的 缺点 

操作 系统 扩展 的 主要 缺点 是 在 一 个 容器 中 的 操作 系统 级 的 所 有 虚拟 机 必须 使 用 相同 的 客户 
操作 系统 。 也 就 是 说 ， 尽 管 不 同 操作 系统 级 虚拟 机 可 能 有 不 同 的 操作 系统 发 布 版 ， 但 它们 必须 属 
于 同一 个 操作 系统 家 族 。 例 如 ， 一 个 Windows 发 行 版 (如 Windows XP) 不 能 运行 在 一 个 基于 
Linux 的 容器 中 。 然 而 ， 云 计算 的 用 户 需 求 却 千 变 万 化 。 一 些 人 喜欢 使 用 Windows， 另 一 些 人 又 
喜欢 使 用 Linux 或 其 他 操作 系统 ， 因 此 ， 这 对 操作 系统 级 虚拟 化 提出 了 挑战 。 

图 3-3 展示 了 操作 系统 级 虚拟 化 的 概念 。 虐 拟 化 级 插入 到 操作 系统 中 ， 为 多 个 虚拟 机 划分 硬 
件 资 源 ， 从 而 能 够 在 多 个 虚拟 环境 中 执行 它们 的 应 用 。 为 实现 操作 系统 层 虚 拟 化 ， 相 互 隔 离 的 虚 
拟 机 应 基于 单一 操作 系统 内 核 创建 。 而 且 ， 来 自 虚 拟 机 的 访问 请 求 需要 被 重 定向 到 虚拟 机 在 物 
理 机 器 上 的 本 地 资源 分 区 。 例 如 ，UNIX 系统 中 的 chroot 命令 可 以 在 一 个 主机 操作 系统 中 创建 许 
多 虚拟 根 目录 ， 这 些 虚拟 根 目录 就 是 所 有 虚拟 机 创建 的 根 目录 。 

实现 虚拟 化 根 目 录 有 两 种 方式 : 为 每 个 虚拟 机 分 区 复制 公共 资源 ; 与 主机 环境 共享 大 部 分 
资源 ， 并 且 只 在 虚拟 机 上 按 需 创 建 私有 副本 。 第 一 种 方式 会 为 物理 机 器 带 来 很 多 资源 开销 ; 与 硬 
件 辅 助 虚拟 化 相 比 ， 该 问题 会 抵消 操作 系统 层 虚 拟 化 的 好 处 。 因 此 ， 操 作 系 统 级 虚拟 化 常常 只 是 
第 二 选择 。 

3.1.3.4 Linux 或 Windows 平台 上 的 虚拟 化 

到 目前 为 止 ， 大 部 分 操作 系统 级 虚拟 化 系统 都 基于 Linux。 基 于 Windows 平台 的 虚拟 化 支持 
仍 只 是 处 于 研究 阶段 。Linux 内 核 提 供 了 一 个 允许 软件 进程 无 需 了 解 硬件 细节 即 可 使 用 和 操作 硬 
件 资源 的 抽象 层 ， 新 硬件 可 能 需要 一 个 新 的 Linux 内 核 来 支持 。 因 此 ， 不 同 Linux 平台 使 用 打 补 
丁 的 内 核 来 为 扩展 功能 提供 特殊 支持 。 

然而 ， 大 部 分 Linux 平台 并 不 与 特定 内 核 绑 定 。 在 这 种 情况 下 ， 主 机 可 以 在 一 个 硬件 上 同时 
运行 许多 虚拟 机 。 表 3-3 总 结 了 近 些 年 来 开发 的 一 些 操 作 系统 级 虚拟 化 工具 。 两 个 操作 系统 工具 
(Linux vServer 和 OpenVZ) 支持 通过 虚拟 化 在 Linux 平台 上 运行 基于 其 他 平台 的 应 用 ， 如 例 3.1 
所 示 。 第 三 个 工具 FVM， 则 主要 为 Windows NT 平台 虚拟 化 而 开发 。 


表 3-3 Linux 和 Windows NT 平台 的 虚拟 化 支持 





虚拟 化 支持 和 信息 来 源 对 功能 和 应 用 程序 平台 的 简要 介绍 
Linux vServer 用 于 Linux 平台 通过 设置 资源 限制 和 文件 属性 及 为 虚拟 机 隔离 改变 根 环境 ， 扩 展 Linux 内 
( http ://linux- vserver. org/ ) 核实 现 一 个 安全 机 制 来 辅助 虚拟 机 的 创建 





OpenVZ 用 于 Linux 平台 ®) (http:// 通过 创建 VPS (Virtual Private Server) 支持 虚拟 化 。VPS 有 自己 的 文件 、 
ftp. openvz. org/ doc/ OpenVZ- Users- Guide. pdf) | 用 户 、 进 程 树 和 虚拟 设备 ， 与 其 他 YPS 相互 隔离 。 支 持 检 查 点 和 在 线 迁 移 


FVM ( Feather- Weight 虚拟 机 ) 用 于 通过 系统 调用 接口 在 NT 内 核 空 间 创 建 虚拟 机 。 通 过 虚拟 化 命名 空间 和 写 
虚拟 化 Windows NT 平台 [m] 时 复制 《copy-on- write) 支持 多 虚拟 机 








例 3.1 Linux 平台 的 虚拟 化 支持 

OpenVZ 是 一 个 在 Linx 平台 上 为 运行 中 的 虚拟 机 创建 虚拟 环境 的 操作 系统 级 工具 ， 这 些 虚 
拟 机 可 以 在 不 同 的 客户 操作 系统 上 运行 。OpenVZ 是 一 个 开源 的 、 建 立 在 Linux 之 上 的 、 基 于 容 
桥 的 虚拟 化 解决 方案 。 为 支持 虚拟 化 、 不 同 子 系统 的 隔离 、 限 制 的 资源 管理 和 窒 查 点 等 特征 ， 
OpenVZ 修改 了 Linux 内 核 。OpenVZ 系统 的 总 体 结构 如 图 3-3 所 示 。 许 多 VPS 可 以 同时 运行 在 一 
个 物理 机 器 之 上 ， 这 些 VPS 看 起 来 与 正常 Linux 服务 器 类 似 ， 每 个 VPS 具有 自己 的 文件 、 用 户 和 
组 、 进 程 树 、 虚 拟 网 络 、 虚 氢 设 备 ， 以 及 通过 信号 和 消息 传递 的 IPC, 

OpenVZ 的 资源 管理 子 系 统 包 括 三 部 分 : 两 级 磁 扑 分 配 、 两 级 CPU 调度 和 一 个 资源 控制 器 。 
虚拟 机 可 使 用 的 磁盘 空间 由 OpenVZ 服务 器 管理 员 设 定 ， 这 是 第 一 级 的 磁盘 分 配 。 每 个 虚拟 机 像 
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一 个 标准 Linux 系统 一 样 运行 。 因 此 ， 虚 拟 机 管理 员 负 责 为 每 个 用 户 和 组 分 配 磁盘 空间 ， 这 是 第 
二 级 的 磁盘 分 配 。OpenVZ 的 第 一 级 CPU 调度 器 将 虚拟 CPU 的 优先 级 和 限制 设置 考虑 在 内 ， 决 定 
为 哪个 虚拟 机 分 配 时 间 片 。 

第 二 级 的 CPU 调度 与 Linux 相同 。OpenVZ 有 经 仔细 选择 过 的 大 约 20 个 参数 ， 覆 盖 了 虚拟 机 
操作 的 所 有 方面 。 因 此 ， 虚 拟 机 可 使 用 的 资源 完全 可 控 。OpenVZ 也 支持 检查 点 和 在 线 迁移 。 虚 
拟 机 的 完整 状态 可 被 快速 保存 到 磁盘 文件 中 ， 该 文件 可 被 传输 到 另 一 个 物理 机 器 上 并 在 该 机 器 
上 恢复 执行 虚拟 机 ， 完 成 整个 过 程 仅 需 儿 秒 。 然 而 ， 因 为 已 建立 的 网 络 连 接 也 需要 迁移 ， 所 以 仍 
存在 一 定 延 时 。 a 
3.1.4 虚拟 化 的 中 间 件 支持 

库 级 虚拟 化 也 称 为 用 户 级 应 用 程序 二 进 制 接口 (Application Binary Interface, ABI) 或 应 用 编 
程 接 口 ( Application Programmable Interface, API) 模拟 。 它 仅 创建 运行 时 环境 即 可 以 运行 不 兼容 
程序 ， 无 需 创 建 虚 拟 机 运行 整个 操作 系统 。 该 虚拟 化 方式 的 关键 是 AP 调用 的 解释 与 重 映 射 。 本 
节 将 概要 介绍 如 下 库 级 虚拟 化 系统 : WABI, Lxrun, WINE, Visual MainWin 和 vCUDA， 如 表 3-4 
所 示 。 


表 3-4 虚拟 化 的 中 间 件 和 库 级 支持 

















中 间 件 或 运行 时 库 和 参考 文献 或 网 页 链接 简要 介绍 和 应 用 程序 平台 
WABI ( http://docs. sun. com/app/decs/doc/ 中 间 件 ， 可 将 运行 在 x86 PC 上 的 Windows 系统 调用 转换 为 能 运行 在 
802-6306) SPARC 工作 站 上 的 Solaris 系统 调用 
Lxrun( Linux Run)( http://www. uges. 系统 调用 模拟 器 ， 可 使 x86 的 Linux 应 用 程序 运行 在 UNIX 系统 上 
caltech. edu/ ~ steven/ lxrun/ ) (如 SCO OpenServer) 
. 库 支持 系统 ,通过 虚拟 化 x86 处 理 器 可 在 Linux, FreeBSD 和 Solaris 
WINE ( http://www. winehq. org/) 系统 上 运行 Windows 应 用 程序 





编译 器 支持 系统 ， 使 用 Visual Studio 开发 的 Windows 应 用 程序 可 运行 
在 Solaris, Linux 和 AIX 系统 上 


虚拟 化 支持 ， 在 特定 的 客户 操作 系统 上 使 用 通用 CPU 运行 数据 密集 


Visual MainWin( http://www. mainsoft com/ ) 
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vCUDA ( 例 3.2) (IEEE IPDPS 2009! ) 








型 应 用 





WABI 将 Windows 系统 调用 转换 为 Solaris 系统 调用 。Lxrun 属于 系统 调用 模拟 器 ， 可 以 使 基 
于 x86 的 Linux 应 用 程序 运行 在 UNIX 系统 上 。 与 Lxrun 类 似 ，WINE 通过 库 级 支持 可 在 x86 的 
UNIX 系统 上 运行 x86 的 Windows 应 用 程序 。Visual MainWin 则 提供 编译 器 支持 ， 它 能 够 使 得 用 
Visual Studio 开发 的 Windows 应 用 程序 运行 在 UNIX 系统 上 。vCUDA 详 见 例 3.2， 对 其 的 图 形 化 解 
释 如 图 3-4 所 示 。 

例 3.2 用 于 通用 GPU 虚拟 化 的 vCUDA 

CUDA 是 将 GPU 通用 化 的 一 套 库 ， 是 一 种 编程 模型 。 在 虚拟 化 环境 中 ，CUDA 可 以 利用 GPU 
的 高 性 能 特征 在 物理 主机 系统 上 运行 计算 密集 型 任务 ， 但 很 难 在 硬件 级 虚拟 机 上 直接 运行 CUDA 
应 用 。vCUDA 是 虚拟 化 的 CUDA 库 ， 安 装 在 客户 操作 系统 中 。 当 运行 在 客户 操作 系统 中 的 CUDA 
应 用 发 出 一 个 CUDA API 调用 时 ，vCUDA 将 解释 该 调用 并 将 其 重 定 咎 至 主机 操作 系统 的 CUDA 
API。 如 图 3-4 所 示 为 vCUDA 结构 的 基本 概念 示意 图 ”| 。 

vCUDA 利用 客户 端 - 服务 器 模型 实现 CUDA 虚拟 化 。 它 由 如 下 三 个 用 户 级 组 件 构 成 ; 
vCUDA 库 、 客 户 操作 系统 中 的 虚拟 GPU (作为 客户 端 ) 和 主机 操作 系统 中 的 vCUDA $ (AR 
务 器 ) 。vCUDA 库 代替 标准 CUDA 库 处 于 客户 操作 系统 中 ， 负 责 解 释 和 重 定向 从 客户 端 到 服务 器 
的 API 调用 。 除 此 以 外 ，vCUDA 还 负责 创建 并 管理 vGPU。 
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vGPU 有 如 下 三 方面 的 功能 : (1) 抽象 化 GPU 物理 硬件 结构 并 为 应 用 程序 提供 统一 视图 ; 
(2) 当 客 户 操作 系统 的 CUDA 应 用 向 CPU 请 求 分 配 内 存 时 ，vGPU 返回 本 地 虚拟 地 址 给 CUDA 应 
用 并 通知 远 端 服务 器 分 配 真 实 的 设备 内 存 ; (3) vGPU 负责 存储 CUDA API 流 。vCUDA 桩 接收 并 
解释 客户 端 请 求 ， 它 为 来 自 客 户 操作 系统 的 API 调用 创建 对 应 的 执行 上 下 文 ， 并 将 结果 返回 给 客 
户 操作 系统 。vCUDA 桩 也 管理 实际 的 物理 资源 分 配 。 a 


主机 操作 系统 | | 客户 操作 系统 


CUDA 应 用 程序 





设备 (CPU, EA, WE) 





3-4 vCUDA 结构 的 基本 概念 
ik: 由 Lin Shi 等 人 [1 提供 。 


3.2 虚拟 化 的 结构 /工具 与 机 制 


通常 来 讲 ， 虚 拟 机 结构 有 三 种 类 型 。 图 3-1 展示 了 虚拟 化 前 后 的 机 器 体系 结构 。 在 虚拟 化 
前 ,操作 系统 管理 硬件 ; 在 虚拟 化 后 ， 在 硬件 和 操作 系统 之 间 插 入 了 一 个 虚拟 化 层 。 在 这 种 情况 
下 ， 虚 拟 化 层 负 责 将 部 分 真实 硬件 转换 为 虚拟 硬件 。 因 此 ,不 同 的 操作 系统 (如 Linux 和 
Windows) 能 同时 运行 在 同一 台 物 理 机 器 上 。 根 据 虚拟 化 层 所 处 的 位 置 ， 虚 拟 机 体系 结构 可 以 分 
为 许多 类 型 ， 分 别称 为 : hypervisor 体系 结构 、 半 虚拟 化 和 基于 主机 的 虚拟 化 。hypervisor 也 称 为 
VMM (虚拟 监视 器 ) ， 它 们 执行 相同 的 虚拟 化 操作 。 
3. 2.1 hypervisor 与 Xen 体系 结构 


hypervisor 支持 在 裸 机 设备 (如 CPU、 内存、 磁盘 和 网 络 接口 ) 之 上 的 硬件 级 虚拟 化 (如 
图 3-1b 所 示 ) 。hypervisor 直接 处 在 物理 硬件 和 其 操作 系统 之 间 。 该 虚拟 化 层林 以 指 VMM， 也 可 
以 指 hypervisbr。hypervisor 为 客户 操作 系统 和 应 用 程序 提供 了 超级 调用 。 根 据 功能 的 不 同 ， 
hypervisor 可 以 是 一 个 微 内 核 体系 结构 ， 如 微软 的 Hyper-V， 也 可 以 是 一 个 单一 hypervisor 结构 ， 
如 用 于 服务 器 虚拟 化 的 VMware ESX, . 

微 内 核 的 hypervisor 包括 基本 的 、 不 变 的 功能 ， 如 物理 内 存 管理 和 处 理 器 调度 ， 设 备 驱动 和 
其 他 可 变 组 件 则 处 于 hypervisor 之 外 。 单 一 hypervisor 则 实现 前 述 所 有 功能 ， 包 括 设备 驱动 相关 功 
能 。 因 此 ， 微 内 核 hypervisor 的 代码 尺寸 小 于 单一 hypervisor, EE, hypervisor 必须 可 以 将 物理 
设备 转换 为 可 被 多 个 虚拟 机 使 用 的 虚拟 资源 。 

Xen 体系 结构 

Xen 是 一 个 由 剑桥 大 学 开发 的 开源 hypervisor 程序 。Xen 属于 微 内 核 hypervisor， 其 中 策略 与 
机 制 分 离 。Xen hypervisor 实现 所 有 机 制 , 策略 则 留 给 Domain 0 处 理 ， 如 图 3-5 所 示 。Xen 本 地 不 
包括 任何 设备 驱动 " ， 它 只 是 握 供 了 一 种 客户 操作 系统 可 以 直接 访问 物理 设备 的 机 制 。 因 此 ， 
Xen 的 代码 尺寸 很 小 。Xen 提供 了 一 个 处 于 硬件 和 操作 系统 之 间 的 虚拟 环境 。 现 在 ， 大 量 厂 商 正 
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在 开发 商业 的 Xen hypervisor， 有 Citrix XenServer! 和 Oracle VM'“?! 。 


控制 、VO (FR) 客户 域 客户 域 

te) | a | |2 ey) | 外 | | 此 we) te] |e) 
ai] | | | g fe | we | | Re] | ae | | Be) | = 
还 | |e) | E FE) || | 至 EJE] EJ] E 
2), 2) | 2 By) | 全 | | 到 SIJAJ EJZ 


图 3-5 Xen 体系 结构 用 于 控制 和 IO 的 特殊 零 域 并 用 于 用 户 应 用 程序 的 客户 域 
注 ， 由 了 Barham 等 人 [提供 。 


Xen 系统 的 核心 组 件 是 hypervisor、 内 核 和 应 用 程序 。 这 三 个 组 件 的 组 织 很 重要 。 与 其 他 虚拟 
化 系统 类 似 hypervisor 之 上 可 运行 许多 客户 操作 系统 。 然 而 ， 不 是 所 有 客户 操作 系统 都 处 于 平 
等 地 位 ， 实 际 上 ， 其 中 一 个 虚拟 机 具有 控制 其 他 虚拟 机 的 特权 。 具 有 控制 特权 的 客户 操作 系统 称 
为 Domain 0， 其 他 客户 操作 系统 则 称 为 Domain U, Domain 0 Æ Xen 的 一 个 具有 特权 的 客户 操作 系 
统 。 在 启动 Xen 时， 没有 任何 文件 系统 驱动 可 用 ， 这 时 ，Domain 0 被 首先 启动 。Domain 0 可 以 直 
接 访 问 硬 件 和 管理 设备 。 因 此 ，Domain 0 的 一 个 任务 是 为 所 有 Domain U 分 配 和 映射 硬件 资源 。 

例如 ，Xen 基于 Linux， 其 安全 级 别 是 C2。 它 的 管理 虚拟 机 称 为 Domain 0， 具 有 管理 处 于 同 
一 台 主 机 的 其 他 虚拟 机 的 特权 。 如 果 Domain 0 被 人 侵 ， 则 黑客 可 以 控制 整个 系统 。 因 此 ， 在 虚 
拟 机 系统 中 ， 需 要 相应 的 安全 策略 来 提高 Domain 0 的 安全 性 。Domain 0， 像 VMM 一 样 ， 可 以 像 
操作 文件 一 样 简单 地 创建 、 复 制 、 保 存 、 读 取 、 修 改 、 共 享 、 迁 移 和 回 滚 虚拟 机 ， 为 用 户 提供 了 
ERTA. ERKE, Xen 在 软件 生命 周期 和 数据 生存 期 中 带 来 一 系列 安全 问题 。 

按照 惯例 ， 可 以 把 一 个 机 器 的 生存 期 想象 为 一 条 直线 ， 其 中 机 器 的 当前 状态 是 一 个 点 ， 该 点 
随 着 软件 的 执行 而 单 向 移动 。 在 这 期 间 ， 可 以 改变 配置 、 安 装 软件 或 打 补 丁 。 这 时 ， 虚 拟 机 状态 
类 似 于 一 棵 树 ; 在 任何 点 ， 执 行 可 以 到 达 多 个 不 同 的 分 支 ， 其 中 虚拟 机 的 多 个 实例 可 以 在 任何 时 
候 处 于 该 树 的 任何 点 。 人 允许 虚拟 机 回 滚 到 它们 前 面 执行 的 状态 〈 例 如 ， 修 复 配 置 铺 误 ) RAF 
一 个 点 返回 多 次 。( 例 如， 作为 一 种 发 布 动态 内 容 或 者 循环 在 线 系统 镜像 的 方式 。) 
3.2.2 全 虚拟 化 的 二 进 制 翻译 

根据 实现 技术 的 不 同 ， 硬 件 虚拟 化 可 以 分 为 : 全 虚拟 化 和 基于 主机 的 虚拟 化 。 全 虚拟 化 
不 需要 修改 主机 操作 系统 。 它 依赖 于 二 进 制 翻译 来 陷入 和 虚拟 化 一 些 敏感 、 不 可 虚拟 化 的 指 
令 的 执行 。 客 户 操作 系统 和 它们 的 应 用 由 非 临 界 和 临界 指令 构成 。 在 基于 主机 的 系统 中 ， 主 
机 操作 系统 和 客户 操作 系统 同时 存在 ， 虚 拟 化 软件 层 处 于 两 者 之 间 。 下 面 将 具体 介绍 这 两 类 虚 
拟 化 结构 。 

3.2.2.1 会 虚拟 化 

在 全 虚拟 化 中 ， 非 临界 指令 直接 运行 在 硬件 之 上 ， 而 临界 指令 被 发 现 并 替换 为 通过 软件 檬 
拟 的 陷入 VMM 的 指令 。hypervisor 和 VMM 都 属于 全 虚拟 化 。 为 什么 只 有 临界 指令 陷 人 VMM OB? 
这 是 因为 二 进 制 翻译 会 引起 很 大 的 性 能 开销 。 非 临界 指令 与 临界 指令 不 同 ， 并 不 控制 硬件 ， 不 会 
对 系统 安全 造成 威胁 。 因 此 ， 在 硬件 上 直接 运行 非 临界 指令 可 以 在 确保 系统 安全 性 的 同时 提升 
性 能 。 . 

3.2.2.2 VMM 中 对 客户 操作 系统 请 求 的 二 进 制 翻译 

这 是 VMware 和 许多 其 他 软件 公司 所 采用 的 虚拟 化 方法 。 如 图 3-6 HR, VMware 将 VMM 置 
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于 环 0， 客 户 操作 系统 置 于 环 1。VMM 扫描 指令 流 并 识别 出 特权 的 、 控 制 和 行为 敏感 的 指令 。 当 
这 些 指 令 被 识别 出 来 后 ， 它 们 会 陷 人 到 VMM 中 ， 然 后， 由 VMM 模拟 这 些 指令 的 行为 ， 这 就 是 
二 进 制 翻译 。 因 此 ， 全 虚拟 化 结合 了 二 进 制 翻译 和 直接 执行 。 客 户 操作 系统 完全 与 底层 硬件 解 
H, 感知 不 到 其 正在 被 虚拟 化 。 x3 






直接 执行 










由 于 引入 了 非常 耗 时 的 二 进 制 翻译 ， 全 虚拟 化 的 用 户 请 求 
性 能 可 能 并 不 理想 。 特 别 地 ， 对 LO 密集 型 应 用 的 全 
虚拟 化 更 是 一 个 大 的 挑战 。 二 进 制 翻译 通过 利用 代码 环 ! 人 RS 
缓存 存储 已 经 翻译 过 的 热 指 令 来 改进 性 能 ， 但 却 增加 i 操作 系统 
了 内 存 的 消耗 。 直 至 目前 ，x86 体系 结构 上 全 虚拟 化 ce 





的 性 能 是 物理 主机 性 能 的 80% ~97% 。 | 计算 机 主机 系统 硬件 
3.2.2.3 基于 主机 的 虚拟 化 ， 
另 一 种 虚拟 机 结构 是 在 主机 操作 系统 之 上 安装 一 图 3-6 复杂 指令 的 间接 执行 ， 即 使 用 VMM 


CLE 





个 虚拟 化 层 。 该 主机 操作 系统 仍旧 负责 管理 硬件 。 客 二 进 制 翻译 客户 操作 系统 请 求 ， 并 
户 操作 系统 安装 并 和 运行 在 虚拟 化 层 之 上 。 特 定 的 应 用 在 同一 台 主 机 上 直接 执行 简单 指令 


可 运行 在 虚拟 机 中 。 当 然 , 许多 其 他 应 用 也 可 以 直接 注 : VMware!” 提供 。 
运行 在 主机 操作 系统 之 中 。 这 种 基于 主机 的 体系 结构 
有 许多 优点 ， 下 面 分 别 列举 。 第 一 ， 用 户 可 以 在 主机 操作 系统 上 直接 安装 虚拟 机 体系 结构 ， 无 需 
修改 主机 操作 系统 ， 虚 拟 化 软件 可 以 利用 主机 操作 系统 来 提供 设备 驱动 和 其 他 底层 服务 。 这 将 
会 简化 虚拟 机 的 设计 和 部 署 。 

第 二 ， 基 于 主机 的 方法 支持 许多 主机 配置 。 与 hypervisor 或 VMM 体系 结构 相 比 ， 基 于 主机 
的 虚拟 化 结构 的 性 能 可 能 较 低 。 当 应 用 程序 请 求 访问 硬件 时 ， 需 要 引入 4 层 映 射 ， 这 会 显著 降低 
性 能 。 当 客户 操作 系统 的 ISA 与 底层 硬件 的 ISA 不 同时 ， 还 需要 进行 二 进 制 翻译 。 尽 管 基 于 主机 
的 体系 结构 较为 灵活 ， 但 性 能 太 低 ， 很 难 实际 应 用 。 
3.2.3 编译 器 支持 的 半 虚 拟 化 技术 

半 虚 拟 化 需要 修改 客户 操作 系统 。 半 虚拟 化 虚拟 机 在 用 户 程序 中 提供 了 特殊 的 API， 要 求 真 
正 修改 操作 系统 。 性 能 下 降 是 虚拟 化 系统 的 一 个 典型 问题 。 如 果 虚 拟 机 显著 慢 于 物理 机 器 ， 则 无 
人 愿意 使 用 虚拟 机 。 虚 拟 化 层 可 以 插入 机 器 软件 堆栈 的 不 同位 置 。 然 而 ， 半 虚拟 化 通过 只 修改 客 
户 操作 系统 内 核 来 尝试 降低 虚拟 化 开销 ， 改 进 性 能 。 

图 3-7 展示 了 半 虚 拟 化 体系 结构 的 概念 ， 其 中 ， 客 户 操作 系统 被 半 虚 拟 化 。 图 3-8 所 示 为 一 
个 智能 编译 器 将 不 可 虚拟 化 的 操作 系统 指令 蔡 换 为 使 用 超级 调用 的 情况 。 传 统 x86 处 理 器 提供 4 
个 指令 执行 环 : 环 0、1、2 和 3。 环 越 低 ， 被 执行 指令 的 优先 级 越 高 。 操 作 系 统 负 责 管理 硬件 ， 
特权 指令 在 环 0 执行 ， 而 用 户 态 应 用 程序 则 执行 在 环 3。 半 虚拟 化 的 最 好 例子 是 下 面 将 要 描述 
的 KVM, 

3.2.3.1 半 虚 拟 化 体系 结构 

当 x86 处 理 器 被 虚拟 化 时 ， 一 个 虚拟 化 层 插入 在 了 硬件 和 操作 系统 之 间 。 按 照 x86 环 的 定 
X, 虚拟 化 层 仍 应 被 安装 在 环 0。 处 于 环 0 的 不 同 指令 会 导致 一 些 问题 。 在 图 3-8 H, RIAZ 
半 虚 拟 化 将 不 可 虚拟 化 的 指令 替换 为 可 与 hypervisor 或 VMM 直接 通信 的 超级 调用 。 然 而 ， 当 客 
户 操 作 系 统 内 核 为 虚拟 化 而 修改 时 ， 就 不 再 能 直接 运行 在 硬件 之 上 。 

尽管 半 虚 拟 化 会 降低 开销 ， 但 它 会 引入 其 他 问题 。 首 先 ， 兼容 性 和 可 移植 性 会 受到 影响 ， 因 
为 它 必须 也 支持 未 修改 的 操作 系统 。 其 次 ,维护 半 虚 拟 化 的 操作 系统 的 开销 较 高 ， 因 为 它们 可 能 
需要 大 量 地 修改 操作 系统 内 核 。 最 后 ， 半 虚拟 化 的 性 能 优势 会 随 负 载 大 幅 变 化 。 与 全 虚拟 化 相 
比 ， 半 虚拟 化 相对 容易 并 可 行 。 全 虚拟 化 的 主要 问题 是 二 进 制 翻译 的 性 能 较 低 ， 而 加 速 二 进 制 翻 
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译 则 较为 困难 。 因 此 ， 许 多 虚拟 化 产品 利用 了 半 虚 拟 化 体系 结构 ， 流 行 的 Xen、KVM 和 VMware 


ESX 是 很 好 的 例子 。 


| 应 用 程序 ) 应 用 程序 


半 虚 拟 化 的 客户 半 虚 拟 化 的 客户 
操作 系统 操作 系统 








图 3-7 半 虚 拟 化 的 虚拟 机 体系 结构 ， 其 中 包 
括 为 执行 虚拟 化 进程 而 修改 客户 操作 
系统 内 核 ， 将 不 可 虚拟 化 的 指令 替换 
为 对 hypervisor 或 VMM 的 超级 调用 







直接 执行 
用 户 请 求 








使 用 对 虚拟 
化 层 的 超级 
调用 替换 不 
可 虚拟 化 的 
操作 系统 指令 





半 虚 拟 化 的 
客户 操作 系统 














计算 机 主机 系统 硬件 


图 3-8 半 虚 拟 化 的 客户 操作 系统 ， 由 智能 编译 
器 辅助 将 不 可 虚拟 化 的 操作 系统 指令 替 
换 为 超级 调用 

注 ， 由 VMwaret71] 提供 。 


( 详 见 图 3-8) 

3.2.3.2 KVM 

KVM (Kemel-based VM) 是 一 个 基于 Linux 的 半 虚 拟 化 系统 ， 是 Linux 2.6.20 内 核 的 一 部 
分 。 内 存 管理 和 调度 由 存在 的 Linux 内 核 执行 ，KVM 则 负责 其 余部 分 ， 这 使 得 KVM 比 其 他 需 控 
制 整个 机 器 的 hypervisor 简单 许多 。KVM 是 一 个 基于 硬件 辅助 的 半 虚 拟 化 工具 ， 对 性 能 进行 了 改 
进 ， 且 支持 未 修改 的 客户 操作 系统 ， 如 Windows, Linux, Solaris 和 其 他 UNIX 变种 。 

3.2.3.3 带 有 编译 器 支持 的 半 虚 拟 化 

与 全 虚拟 化 体系 结构 在 运行 时 解释 和 模拟 特权 及 敏感 指令 不 同 ， 半 虚拟 化 在 编译 时 控制 这 
些 指令 。 修 改 客 户 操 作 系统 内 核 ， 将 特权 和 敏感 指令 替换 为 对 hypervisor 或 VMM 的 超级 调用 。 
Xen 就 是 一 个 这 样 的 半 虚 拟 化 体系 结构 。 

运行 在 客户 域 中 的 客户 操作 系统 运行 在 环 1 而 非 环 0， 这 意味 着 客户 操作 系统 可 能 不 能 执行 
特权 和 敏感 指令 。 特 权 指 令 被 实现 为 对 hypervisor 的 超级 调用 ， 在 将 这 些 指令 替换 为 超级 调用 后 ， 
修改 过 的 客户 操作 系统 仿真 原始 客户 操作 系统 的 行为 。 在 一 个 UNIX 系统 上 ， 系 统 调用 包括 中 断 
或 服务 例 程 。 超 级 调用 就 是 Xen 中 的 一 个 特定 服务 例 程 。 

$3.3 半 虚 拟 化 的 VMware ESX Server 

VMware 是 虚拟 化 软件 市 场 的 先锋 。 该 公司 为 桌面 系统 、 服 务 器 及 大 规模 数据 中 心 的 虚拟 基 
础 设施 都 开发 了 相应 的 虚拟 化 工具 。ESX 是 一 个 可 运行 在 全 裸 的 x86 对 称 多 处 理 器 服务 器 上 的 
VMM 或 hypervisor。 它 直接 访问 硬件 资源 (如 IO)， 并 具有 对 资源 的 完全 控制 权 。 一 个 可 以 运行 
ESX 的 服务 器 由 如 下 4 部 分 构成 : 虚拟 化 层 、 资 源 管理 器 、 硬 件 接口 组 件 和 服务 控制 全， 如 
图 3-9 所 示 。 为 改进 性 能 ，ESX 服务 器 利用 了 半 虚 拟 化 体系 结构 ， 其 中 ， 虚 拟 机 内 核 直接 与 硬件 
交互 ， 无 需 主机 操作 系统 的 干预 。 

VMM 层 虚 拟 化 硬件 资源 ， 如 CPU、 内存、 网 络 和 磁盘 控制 器 及 人 机 交互 设备 。 每 个 虚拟 机 
有 一 组 自己 的 虚拟 硬件 资源 。 资 源 管理 器 分 配 CPU、 内存、 磁盘 和 网 络 带 宽 ， 并 把 它们 映射 到 
每 个 虚拟 机 创建 的 虚拟 硬件 资源 集合 中 。 硬 件 接 口 组 件 是 设备 驱动 和 VMware ESX Server H X 
件 系统 。 服 务 控 制 台 负责 启动 系统 、 初 始 化 VMM 和 资源 管理 器 的 执行 ， 以 及 放弃 对 那些 层 的 
控制 。 E 
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图 3-9 使 用 半 虚 拟 化 的 VMware ESX Server 体系 结构 
注 ; 由 VMware[71 提供 。 


3.3 CPU, AA IO 设备 的 虚拟 化 


为 支持 虚拟 化 ， 处 理 器 (如 x86) 利用 硬件 辅助 虚拟 化 ， 引 人 一 种 特殊 的 运行 模式 和 指令 ， 
使 得 VMM 和 客户 操作 系统 可 运行 在 不 同 模 式 中 ， 客 户 操作 系统 及 其 应 用 程序 的 所 有 敏感 指令 会 
陷入 到 VMM 中 。 为 保存 处 理 器 状态 ， 模 式 切 换 由 硬件 完成 。 对 x86 体系 结构 来 讲 ，Intel 和 AMD 
有 硬件 辅助 虚拟 化 的 专利 技术 。 

3.3.1 虚拟 化 的 硬件 支持 

现代 操作 系统 和 处 理 器 允许 多 个 进程 同时 运行 。 如 果 处 理 器 中 没有 保护 机 制 ， 那 么 不 同 进 
程 的 所 有 指令 都 可 以 直接 访问 硬件 ， 很 容易 导致 系统 崩 演 。 因 此 ， 所 有 处 理 器 都 至 少 需 要 两 种 模 
式 〈 用 户 模 式 和 管理 模式 ) 来 确保 对 临界 区 硬件 的 受 控 访问 。 运 行 在 管理 模式 的 指令 称 为 特权 
指令 ， 其 他 指令 为 非特 权 指令 。 在 虚拟 化 环境 中 ， 由 于 机 器 栈 的 层 数 更 多 ， 让 操作 系统 和 应 用 程 
序 正确 运行 变 得 更 加 困难 。 例 3.4 讨论 了 Intel 的 硬件 支持 方法 。 145 

目前 ， 已 有 许多 硬件 虚拟 化 产品 。VMware 的 Workstation 是 一 个 用 于 x86 和 x86-64 的 虚拟 机 
软件 包 。 该 软件 包 人 允许 用 户 建立 多 个 x86 和 x86-64 虚拟 机 ， 并 可 以 与 主机 操作 系统 同时 使 用 一 
个 或 多 个 这 些 虚 拟 机 。VMware 的 Workstation 属于 基于 主机 的 虚拟 化 方法 。Xen 是 一 个 可 以 在 IA- 
32, x86-64, Itanium 及 PowerPC 970 主机 中 使 用 的 hypervisor。 实 际 上 ，Xen 修改 了 Linux 来 作为 
处 于 最 底层 的 最 高 优先 级 层 ， 或 hypervisor, 

一 个 或 更 多 的 客户 操作 系统 可 以 运行 在 hypervisor 之 上 。KVM 是 一 个 Linux 内 核 虚拟 化 体系 
结构 。KVM 通过 使 用 Intel VT-x 或 AMD-v 能 支持 硬件 辅助 虚拟 化 ， 通 过 VirtIO 体系 结构 可 以 支 
REEM. Vitio 体系 结构 包括 一 个 半 虚 拟 化 的 网 卡 、 一 个 磁盘 IO 控制 器 、 一 个 用 于 调整 客 
户 内 存 额 度 的 “气球 ”驱动 和 一 个 使 用 VMware 驱动 的 VGA 图 形 接口 。 

例 3.4 intel x86 处 理 器 中 对 虚拟 化 的 硬件 支持 

由 于 基于 软件 的 虚拟 化 技术 较为 复杂 上 且 会 引入 性 能 开销 ，Intel 提供 了 一 种 硬件 辅助 技术 来 
简化 虚拟 化 并 改进 性 能 。 图 3-10 展示 了 Intel 的 全 虚拟 化 技术 概 谣 。 对 处 理 器 虚拟 化 而 言 ，Intel 
提供 了 VT-x 和 VT-i 技术 。VT-x 在 处 理 器 中 添加 了 特权 模式 (VMX RRA) 及 新 的 指令 ， 这 些 
扩展 会 使 得 所 有 敏感 指令 自动 陷入 到 VMM 中 。 对 内 存 虚 拟 化 而 言 ，Intel 提供 了 EPT， 可 以 将 虚 
拟 地 址 直接 转换 为 机 器 物理 地 址 ， 对 改进 性 能 大 有 神 益 。 对 IO EM, Intel 则 实现 了 VT-d 和 
VT-c 进行 支持 。 | 
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图 3-10 Intel 对 处 理 器 、 内 存 和 IO 设备 虚拟 化 的 硬件 支持 
注 : 修改 自 文献 [68 ] ， 美 国 南 加 州 大 学 的 Lizhong Chen 提供 。 


3.3.2 CPU 虚拟 化 

虚拟 机 是 当前 实际 存在 的 计算 机 系统 的 副本 ， 其 中 虚拟 机 的 大 部 分 指令 执行 在 主机 处 理 器 
的 本 地 状态 。 因 此 ， 为 获得 更 高 的 性 能 ， 虚 拟 机 的 非特 权 指令 直接 在 物理 主机 中 运行 。 为 保持 正 
确 性 和 稳定 性 ， 其 他 关键 指令 需要 被 正确 处 理 。 关 键 指令 可 以 分 为 三 类 : 特权 指令 、 控 制 敏感 指 
令 和 行为 敏感 指令 。 特 权 指 令 需 要 在 特权 模式 中 执行 ， 当 在 特权 模式 之 外 执行 特权 指令 时 会 发 
生 陷 和 人。 控制 敏感 指令 尝试 改变 使 用 资源 的 配置 。 行 为 敏感 指令 根据 资源 的 配置 情况 会 有 不 同 
的 行为 ， 包括 在 虚拟 内 存 中 进行 的 负载 和 存储 操作 。 | 

如 果 当 VMM 运行 在 管理 模式 时 ，CPU 支持 在 用 户 模式 运行 虚拟 机 的 特权 指令 和 非特 权 指 
令 ， 则 该 CPU 体系 结构 是 可 虚拟 化 的 。 当 虚拟 机 执行 特权 指令 及 控制 敏感 指令 和 行为 敏感 指令 
时 ,会 陷 人 到 VMM 中 。 在 这 种 情况 下 ，VMM 为 来 自 不 同 虚拟 机 的 硬件 访问 扮演 统一 调解 者 的 
角色 ， 以 保证 全 系统 的 正确 性 和 稳定 性 。 然 而 ， 并 不 是 所 有 的 CPU 体系 结构 都 是 可 虚拟 化 的 。 


由 于 RISC 的 所 有 控制 敏感 指令 和 行为 敏感 指令 都 是 特权 指令 ， 因 此 ，RISC 的 CPU 体系 结构 是 


天 然 可 虚拟 化 的 。 但 是 ，x86 的 CPU 体系 结构 却 并 不 是 为 了 支持 虚拟 化 而 设计 。 这 是 因为 10 条 
敏感 指令 (A SCDT 和 SMSW) 并 不 是 特权 指令 。 当 在 虚拟 机 中 执行 这 些 指令 时 ， 并 不 会 陷入 
到 VMM。 

在 一 个 本 地 的 类 UNIX 系统 中 ， 系 统 调用 会 触发 80h 中 断 并 将 控制 传递 给 操作 系统 内 核 ， 
然后 调用 内 核 中 的 中 断 控制 器 来 处 理 系统 调用 。 在 一 个 半 虚 拟 化 系统 (如 Xen) 中 ,客户 操 
作 系 统 的 系统 调用 会 首先 触发 正常 的 80h 中 断 ， 几 乎 与 此 同时 ，hypervisor 中 的 82h 中 断 也 会 
被 触发 ， 控 制 也 会 被 传递 给 hypervisor。 当 hypervisor 完成 其 处 理 客户 操作 系统 调用 的 任务 时 ， 
会 将 控制 传 回 给 客户 操作 系统 内 核 。 当 然 ， 客 户 操 作 系 统 内 核 可 能 也 会 在 其 执行 过 程 进行 超 
级 调用 。 尽 管 CPU 的 半 虚 拟 化 允许 在 虚拟 机 中 运行 未 被 修改 的 应 用 程序 ， 但 也 会 引起 一 些 性 
能 损失 。 

硬件 辅助 的 CPU 虚拟 化 

因 全 虚拟 化 和 半 虚 拟 化 较为 复杂 ， 硬 件 辅助 的 CPU 虚拟 化 则 尝试 简化 虚拟 化 技术 。Intel 和 
AMD 在 x86 处 理 器 中 额外 添加 了 一 种 模式 ， 称 为 特权 模式 〈 也 称 为 环 1) 。 因 此 ， 操 作 系 统 还 能 
运行 在 环 0，hypervisor 则 运行 在 环 1， 所 有 特权 指令 和 敏感 指令 都 会 自动 陷 人 到 hypervisor 中 。 该 
机 制 避免 了 实现 全 虚拟 化 时 二 进 制 翻译 的 困难 。 它 也 允许 操作 系统 不 经 修改 即 可 运行 在 虚拟 
机 中 。 
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例 3.5 Intel 硬件 辅助 的 CPU 虚拟 化 

尽管 x86 处 理 咒 并 非 主要 用 于 虚拟 化 ， 但 为 将 之 虚拟 化 已 经 付出 了 很 多 努力 。 与 RISC 处 理 
器 相 比 ，x86 应 用 更 为 广泛 ， 基 于 x86 的 大 部 分 遗留 系统 并 不 能 轻易 放弃 。 关 于 x86 处 理 器 的 虚 
拟 化 将 在 下 面 进行 详 述 。Intel 的 VT-x 技术 是 硬件 辅助 虚拟 化 的 一 个 例子 ， 如 图 3-11 Pra, Intel 
将 x86 处 理 器 的 特权 模式 称 为 VMX 根 模式 。 为 了 控制 虚拟 机 的 启动 和 停止 ， 以 及 为 虚拟 机 分 配 
内 存 页 来 维护 CPU 状态 ， 还 额外 添加 了 一 组 指令 。 目 前 ，Xen、VMware 和 微软 的 Virtual PC 都 实 
现 了 使 用 VT-x 技术 的 hypervisor。 

通常 来 讲 ， 硬 件 辅助 虚拟 化 应 具有 更 高 的 效率 。 然 而 ， 由 于 从 hypervisor 到 客户 操作 系统 需 
在 处 理 器 模式 之 间 进 行 切换 ， 会 引起 较 高 的 开销 ， 有 时 并 不 会 优 于 二 进 制 转换 。 因 此 ， 虚 拟 化 系 
统 (如 VMware) 现在 使 用 混合 的 方法 ， 其 中 ， 一 部 分 任务 交 给 硬件 ， 其 余 则 仍 由 软件 处 理 。 除 
此 之 外 ， 可 以 通过 结合 半 虚 拟 化 和 硬件 辅助 虚拟 化 来 进一步 改善 性 能 。 | 
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图 3-11 Intel 硬件 辅助 的 CPU 虚拟 化 
注 ; 修改 自 文献 [68] ， 美 国 南 加 州 大 学 的 Lizhong Chen 提供 。 


3.3.3 内 存 虚拟 化 

内 存 虚拟 化 类 似 于 现代 操作 系统 提供 的 虚拟 内 存 支持 。 在 传统 的 执行 环境 中 ， 操 作 系 统 使 
用 页 表 维 护 从 虚拟 内 存 到 机 器 内 存 的 映射 ， 这 时 ， 从 虚拟 内 存 到 机 器 内 存 只 需 经 过 一 次 映射 即 
可 。 所 有 现代 x86 处 理 器 中 都 包括 MMU (Memory Management Unit， 内 存 管理 单元 ) 和 TLB 
(Translation Lookaside Buffer， 翻 译 后 备 缓冲 器 ) 来 优化 虚拟 内 存 系统 的 性 能 。 然 而 ， 在 虚拟 执行 
环境 中 ， 虚 拟 内 存 的 虚拟 化 包括 共享 RAM 中 的 物理 内 存 并 需要 给 虚拟 机 动态 分 配 内 存 。 

这 意味 着 需要 客户 操作 系统 和 VMM 分 别 维护 从 虚拟 内 存 到 物理 内 存 的 映射 和 从 物理 内 存 到 
机 器 内 存 的 映射 ， 共 两 级 映射 。 进 一 步 ， 也 应 该 支持 MMU 虚拟 化 ， 并 且 对 客户 操作 系统 透明 。 
客户 操作 系统 仍旧 负责 从 虚拟 地 址 到 虚拟 机 的 物理 内 存 地 址 的 映射 ， 但 是 客户 操作 系统 并 不 能 
直接 访问 实际 硬件 内 存 ，VMM 负责 将 客户 物理 内 存 映射 到 实际 的 机 器 内 存 上 。 图 3-12 显示 了 两 
级 内 存 映射 的 过 程 。 

由 于 客户 操作 系统 的 每 个 页 表 在 VMM 中 都 有 一 个 独立 页 表 与 之 对 应 ， 其 中 VMM 中 的 页 表 
称 为 影子 页 表 。 骨 套 的 页 表 在 虚拟 内 存 系统 中 额外 增加 了 一 层 映射 。MMU 负责 由 操作 系统 定义 
的 从 虚拟 地 址 到 物理 地 址 的 转换 。 然 后 ， 使 用 由 hypervisor 定义 的 其 他 页 表 将 物理 内 存 地 址 转换 
为 机 器 地 址 。 由 于 现代 操作 系统 会 为 每 个 进程 维护 一 组 页 表 ， 影子 页 表 会 极度 膨胀 。 因 此 ， 性 能 
开销 和 内 存 开销 也 会 很 高 。 
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虚拟 内 存 / 
虚拟 地 址 
物理 内 存 / 
物理 地 址 
机 器 内 存 / 
机 器 地 址 

注 : 由 R. Rblig 等 人 168] 提供 。 


VMware 使 用 影子 页 表 进 行 虚拟 内 存 到 机 器 内 存 的 地 址 转换 。 处 理 器 使 用 TLB 硬件 将 虚拟 内 
存 直接 映射 到 机 器 内 存 来 避免 每 次 内 存 访问 时 的 两 级 转换 。 当 客户 操作 系统 修改 了 虚拟 内 存 到 
物理 内 存 的 映射 时 ，VMM 会 及 时 更 新 影子 页 表 。 自 2007 年 后 ，AMD 的 Barcelona 处 理 器 加 入 了 
硬件 辅助 内 存 虚 拟 化 功能 ， 它 为 虚拟 化 环境 中 的 两 级 地 址 转换 提供 了 一 种 称 为 谋 套 分 页 的 硬件 
辅助 虚拟 化 技术 。 

例 3.6 Intel 的 内 存 虚拟 化 技术 一 一 扩展 页 表 

由 于 软件 影子 页 表 技 术 的 效率 太 低 ，Intel 开发 了 基于 硬件 的 EPT (Extended Page Table， 扩 
RRR) 技术 来 对 之 加 以 改进 ， 如 图 3-13 所 示 。 除 此 之 外 ，Intel 还 提供 了 VPID (Virtual 
Processor ID) 来 改进 TLB 的 性 能 。 因 此 ， 内 存 虚 拟 化 的 性 能 得 到 了 大 幅 改 进 。 如 图 3-13 所 示 ， 
客户 操作 系统 的 页 表 和 EPT 都 是 四 级 。 
客户 操作 系统 中 的 进程 





图 3-12 两 级 内 存 映射 过 程 





























GVA: 客户 操作 系统 中 一 个 
进程 的 虚拟 内 存 地 址 
GPA: 客户 操作 系统 中 物理 
内 存 地 址 


HPA: 主机 的 物理 内 存 地 址 指针 











图 3-13 使 用 Intel 的 EPT 的 内 存 虚 拟 化 (EPT 也 被 称 为 影子 页 表 !@] ) 
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当 一 个 虚拟 地 址 需要 被 转换 时 ，CPU 会 首先 查找 由 客户 CR3 所 指向 的 14 页 表 。 由 于 客户 
CR3 中 的 地 址 是 客户 操作 系统 的 物理 地 址 ，CPU 需要 使 用 EPT 将 GPA (Guest Physical Address, 
客户 物理 地 址 ) 转换 为 HPA (Host Physical Address ， 主 机 物理 地 址 ) 。 在 这 个 过 程 中 ，CPU 会 检 
查 EPT 的 TLB， 来 查看 是 否 已 有 这 种 转换 。 如 果 EPT 的 TLB 中 没有 所 需 的 转换 ， 则 CPU 将 会 在 
EPT 中 进行 查找 。 如 果 CPU 在 EPT 中 找 不 到 相应 的 转换 项 ， 则 会 发 生 一 个 EPT 违例 。 

获得 LA 页 表 的 GPA 后 ，CPU 会 使 用 CVA (Guest Virtual Address， 客 户 虚 拟 地 址 ) 和 IL4 页 
表 的 内 容 来 计算 L3 页 表 的 GPA。 如 果 LA 页 表 中 对 应 的 GVA 项 是 缺 页 ， 则 CPU 会 产生 一 个 缺 页 
中 断 并 由 客户 操作 系统 来 处 理 该 中 断 。 当 获得 L3 页 表 的 PGA 后 ，CPU 将 会 查找 EPT 来 获得 L3 
页 表 的 HPA， 如 前 所 述 。 为 了 获得 GVA 对 应 的 HPA, CPU 需要 查找 EPT 5 次 ， 并 且 每 次 都 需要 
4 次 访问 内 存 。 因 此 ， 最 坏 情况 下 会 有 20 次 内 存 访问 ,速度 仍旧 很 慢 。 为 了 克服 该 问题 ，Intel 
扩充 了 EPT 的 TLB 容量 来 降低 内 存 的 访问 次 数 。 a 
3.3.4 VO 虚拟 化 

VO 虚拟 化 包括 管理 虚拟 设备 和 共享 的 物理 硬件 之 间 IO 请 求 的 路 由 选择 。 目 前 ， 实 现 ZO 
虚拟 化 有 如 下 三 种 方式 : 全 设备 模拟 、 半 虚拟 化 和 直接 IO。 全 设备 模拟 是 实现 VO 虚拟 化 的 第 
一 种 方式 ， 通 常 来 讲 ， 该 方法 可 以 模拟 一 些 知名 的 真实 设备 。 一 个 设备 的 所 有 功能 或 总 线 结构 
(如 设备 枚 举 、 识 别 、 中 断 和 DMA) 都 可 以 在 软件 中 复制 。 该 软件 作为 虚拟 设备 处 于 VMM 中 ， 
客户 操作 系统 的 VO 访问 请 求 会 陷入 到 VMM F, 5 VO 设备 交互 。 全 设备 模拟 的 方法 如 图 3-14 
所 示 。 

"客户 设备 驱动 
* 虚拟 设备 
> 虚拟 化 层 
- 模拟 虚拟 设备 
- 重 映射 客户 和 真实 7O 地 址 
- 复 用 并 驱动 物理 设备 
- IO 特征 ， 例 如 写 时 复制 磁盘 


A 


实 设备 
- 可 能 与 虚拟 设备 不 同 








图 3-14 用 于 VO 虚拟 化 的 设备 模拟 ， 虚 拟 化 在 中 间 层 实现 ， 将 真实 VO 设备 映射 到 客户 设备 
驱动 使 用 的 虚拟 设备 
i: W V. Chadha 等 人 [10] 和 Y. Dong 等 人 [5 提供。 


单一 的 硬件 设备 可 以 由 多 个 同时 运行 的 虚拟 机 共享 。 然 而 ， 软 件 模拟 的 运行 速度 会 显著 慢 
于 其 所 模拟 的 硬件 。L0 虚拟 化 的 半 虚 拟 化 方法 是 Xen 所 采用 的 方法 ， 它 也 就 是 广 为 熟 知 的 
分 离 式 驱动 模型 ， 由 前 端 驱动 和 后 端 驱动 两 部 分 构成 。 前 端 驱动 运行 在 Domain U 中 ， 而 后 端 驱 
动 运行 在 Domain 0 中 ， 它 们 通过 一 块 共享 内 存 交 互 。 前 端 驱动 管理 客户 操作 系统 的 VO 请 求 ， 
后 端 驱动 负责 管理 真实 的 0 设备 并 复 用 不 同 虚 拟 机 的 VO 数据 。 尽 管 与 全 设备 模拟 相 比 ， 半 
LO 虚拟 化 的 方法 可 以 获得 更 好 的 设备 性 能 ， 但 其 也 会 有 更 高 的 CPU 开销 。 

直接 VO 虚拟 化 让 虚拟 机 直接 访问 设备 硬件 。 它 能 获得 近乎 本 地 的 性 能 ， 并 且 CPU 开销 不 
高 。 然 而 ， 当 前 所 实现 的 直接 VO 虚拟 化 主要 集中 在 大 规模 主机 的 网 络 方面 ， 对 商业 硬件 设备 仍 
有 许多 挑战 。 例 如 ， 当 一 个 物理 设备 被 回收 以 备 后 续 再 用 时 ， 它 可 能 被 设置 到 了 一 个 未 知 状 态 ， 
可 能 会 引起 工作 不 正常 ， 甚 至 让 整个 系统 骨 溃 。 由 于 基于 软件 的 VO 虚拟 化 要 求 非常 高 的 设备 模 
拟 开销 ,硬件 辅助 的 LO 虚拟 化 很 关键 。Intel 的 VT-d 支持 IO DMA 传输 的 重 映射 和 设备 产生 的 
中 断 。VT-d 结构 提供 了 支持 多 用 途 模型 的 灵活 性 ， 可 以 运行 未 修改 的 、 特 殊 目 的 的 、 虚 拟 化 感 
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知 的 客户 操作 系统 。 
另 一 种 辅助 VO 虚拟 化 的 方法 是 自 虚拟 化 LO (Self- Virtualized YO, SV -10)"47), SV-IO® 
法 的 关键 是 利用 多 核 处 理 器 的 富余 资源 。 所 有 与 WO 设备 虚拟 化 相关 的 任务 都 被 封装 在 SV-IO 
中 。 它 提供 虚拟 设备 ， 以 及 一 个 访问 虚拟 机 的 相关 API 和 对 VMM 的 管理 API。SV - IO 为 每 种 类 
149 型 的 虚拟 化 IO 设备 定义 一 个 虚拟 接口 (Virtual InterFace，VIF) ， 例 如 虚拟 网 络 接口 、 虚 拟 块 设 
151 | 备 〈 磁 盘 ) 、 虚 拟 相 机 设备 等 。 客 户 操作 系统 通过 VIF 设备 驱动 与 VIF 交互 。 每 个 VIF 由 两 个 消 
息 队 列 构成 ， 一 个 用 于 向 外 流入 设备 的 消息 ， 另 一 个 用 于 从 设备 向 内 流入 的 消息 。 除 此 之 外 ， 每 
个 V 正 在 SV-IO 中 还 有 一 个 唯一 的 ID 标识 。 
例 3.7 VMware Workstation 的 MO 虚拟 化 
VMware Workstation 以 一 个 应 用 程序 的 身份 运行 。 它 利用 客户 操作 系统 、 主 机 操作 系统 及 
VMM 中 的 IO 设备 支持 来 实现 IO 虚拟 化 。 应 用 程序 部 分 (VMApp) 使 用 一 个 装载 入 主机 操作 
系统 的 驱动 《VMDriver) 来 建立 具有 特权 的 VMM，VMM 直接 运行 在 硬件 之 上 。 某 个 给 定 的 物理 
处 理 器 既 可 以 在 主机 上 执行 ， 也 可 以 在 VMM 中 执行 ，VMDriver 使 得 这 两 者 之 间 的 控制 切换 很 容 
Žo VMware Workstation 利用 全 设备 模拟 来 实现 IO 虚拟 化 。 图 3-15 展示 了 通过 模拟 的 虚拟 网 卡 


发 送 和 接收 网 络 包 所 需 的 功能 模块 。 
网 络 包 发 送 网 络 包 接收 
客户 操作 系统 网 卡 硬件 
[avon 的 OUT 指 令 | 设备 中 上 
oe WM 主机 网 络 驱动 
| aver | We 
| VMDriver ! | VMNet 驱 动 | 
| |x 回 到 VMApp | | Sector ois | 
| Me | ! 使 Ms 存 | 
I 、 | 用 memepy 复 制 虚拟 机 内 
| | ese | | 让 VMM 发 起 一 个 IRQ 
Lo VMN P i 
桥 代码 VMM 
主机 网 络 驱动 发 起 IRQ 
[stom 口 的 OUT 指 令 客户 操作 系统 
网 卡 硬件 对 VO 端口 的 IN/OUT 指 令 
启动 包 发 送 vym o 
上 下 文 切 换 | 
| VMDriver 
| | soon | 
I 
L VMApp 
接收 包 完 


图 3-15 发 送 和 接收 网 络 包 所 需 的 功能 块 
153 H: h VMware! 提供。 


图 3-15 所 示 的 虚拟 网 卡 建 模 了 一 个 AMD 的 Lance Am79C970A 控制 器 。 客 户 操作 系统 中 ， 
Lance 控制 器 的 设备 驱动 通过 读 / 写 一 系列 的 虚拟 VO 端口 发 起 包 的 传输 。 每 次 读 和 写 都 会 切换 
回 VMApp 来 模拟 对 Lance 端口 的 访问 。 当 达到 这 个 序列 的 最 后 一 个 OUT 指令 时 ，Lance 模拟 器 
调用 一 次 对 VMNet 驱动 的 正常 写 操作 ， 然 后 ，VMNet 驱动 会 通过 主机 网 卡 将 包 传 到 网 络 上 ， 最 
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后 VMApp 再 切换 回 VMM 中 ， 该 切换 会 引发 一 个 虚拟 中 断 来 通知 客户 设备 驱动 数据 包 已 被 发 送 。 
接收 动作 与 发 送 动作 相反 ， 如 图 3-15 右 半 部 分 所 示 。 | 
3. 3.5 多 核 处 理 器 的 虚拟 化 

与 虚拟 化 单 核 处 理 器 相 比 ， 虚 拟 化 多 核 处 理 器 相对 更 为 复杂 。 尽 管 多 核 处 理 器 通过 在 一 个 
单一 芯片 上 集成 多 个 处 理 器 核 而 具有 更 高 的 性 能 ， 但 多核 虚拟 化 对 计算 机 体系 结构 工程 师 、 编 
译 器 编写 者 、 系 统 设计 者 和 应 用 程序 编程 人 员 都 提出 了 许多 新 的 挑战 。 主 要 有 两 个 困难 : 一 是 应 
用 程序 编程 者 必须 完全 并 行 地 使 用 所 有 处 理 器 核 ， 二 是 软件 必须 明确 地 为 处 理 器 核 分 配 任务 。 
这 些 都 是 很 复杂 的 问题 。 

先 来 看 第 一 个 挑战 ， 对 新 的 编程 模型 而 言 ， 需 要 通过 语言 和 库 来 简化 并 行 编程 。 第 二 个 挑战 
则 已 经 跨越 了 调度 算法 和 资源 管理 策略 等 研究 领域 。 然 而 ， 这 些 努力 并 不 能 在 性 能 、 复 杂 度 及 其 
他 问题 之 间 有 效 平衡 。 更 糟 的 是 ， 随 着 技术 的 发 展 ， 一 种 称 为 动态 蜡 构 性 的 新 的 挑战 正在 浮现 ， 
其 中 ,将 胖 CPU RAVE GPU 核 混合 放置 在 同一 块 芯片 上 ， 使 得 多 核 和 众 核资 源 管 理 的 问题 变 得 
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更 为 复杂 。 硬 件 基础 设施 的 动态 异 构 性 主要 来 自 于 更 不 可 信和 的 晶体 管 和 使 用 晶体 管 所 增加 的 复 、 


el 。 

3.3.5.1 物理 处 理 器 核 与 虚拟 处 理 器 核 

Wells 等 人 '*! 提 出 了 一 种 多 核 虚 拟 化 的 方法 来 允许 硬件 设计 者 获得 处 理 器 核 底 层 细节 的 抽 
象 。 该 技术 减轻 了 由 软件 管理 硬件 资源 的 负担 及 低 效 性 。 它 位 于 ISA 之 下 并 且 不 需要 操作 系统 或 
VMM (hypervisor) 的 修改 。 图 3-16 展示 了 软件 可 见 的 VCPU 从 一 个 核 移 向 另 一 个 核 的 情景 ， 当 
没有 合适 的 处 理 器 核 可 运行 时 会 临时 挂 起 VCPU 的 执行 。 


。 we 
3 






ents eH 
Oe) Gd Ce) Ce at 
Pe eh ee oe eer ce ISA 





图 3-16 ”多核 虚 拟 化 方法 ， 当 实际 只 有 三 个 核 存在 时 给 软件 暴露 4 个 VCPU 
注 : 由 Wels 等 人 [74] 提供 。 


3.3.5.2 虚拟 层次 结构 

新 兴 的 片上 众 核 多 处 理 器 (CMP) 为 我 们 提供 了 一 种 新 的 计算 方式 。 除 了 在 一 个 或 多 个 核 
上 支持 分 时 共享 作业 外 ， 还 可 以 使 用 多 余 的 处 理 器 核 进行 空间 共享 ， 其 中 单线 程 或 多 线程 作业 
被 同时 长 时 间 地 分 配给 独立 的 核 组 。 该 思想 由 Marty 和 Hil 首先 提出 。 为 了 优化 空间 共享 负载 
的 性 能 ， 他 们 还 提出 使 用 虚拟 层次 结构 在 一 个 物理 处 理 器 上 覆盖 一 层 一 致 的 、 缓 冲 的 层次 结构 。 
不 像 固定 的 物理 层次 结构 ， 虚 拟 层次 体系 结构 可 以 通过 自动 调整 空间 共享 负载 的 方式 来 获得 更 
好 的 性 能 和 性 能 隔离 性 。 

今天 的 片上 众 核 多 处 理 器 使 用 一 个 两 级 或 更 多 级 缓冲 的 物理 层次 结构 ， 它 静态 确定 缓冲 的 
分 配 和 映射 。 一 个 虚拟 层次 结构 是 能 够 动态 适应 单一 负载 或 混合 负载 的 缓冲 层次 结构 只] 。 层 次 
结构 的 第 一 级 将 数据 放 到 高 处 理 器 核 近 的 缓冲 中 ， 以 进行 更 快速 的 访问 ， 建 立 一 个 共享 缓冲 域 ， 
并 建立 一 个 一 致 点 进行 更 快速 的 通信 。 当 一 个 访问 失效 发 生 时 ， 它 首先 尝试 在 第 一 级 缓冲 中 定 
位 该 数据 。 第 一 级 缓冲 也 能 提供 独立 负载 之 间 的 隔离 。 第 一 级 缓冲 的 访问 失效 会 引发 对 第 二 级 
缓冲 的 访问 。 
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上 述 想法 如 图 3-17a 所 示 。 使 用 空间 共享 来 将 三 个 负载 分 配给 虚拟 核 的 三 个 集群 ， 它 们 分 别 
是 用 于 数据 库 负载 的 VMO 和 VM3， 用 于 Web 服务 器 负载 的 VMI 和 VM2， 以 及 用 于 中 间 件 负载 
的 VM4 ~ VM7。 基 本 假定 是 每 个 负载 运行 在 自己 的 虚拟 机 中 ， 然而， 在 一 个 操作 系统 中 公平 地 
使 用 空间 共享 。 假 如 操作 系统 或 hypervisor 可 以 将 虚拟 页 面 正 确 地 映射 为 物理 页 帧 ， 则 可 以 更 好 
地 在 “瓷砖 ” (tile) 之 间 静 态 分 布 目录 。Marty 和 Hill 提出 了 一 致 的 、 缓 冲 的 两 级 虚拟 层次 结 
构 ， 可 与 虚拟 机 的 虚拟 集群 分 配 “ 瓷 砖 ”保持 一 致 。 

图 3-17b 展示 了 这 样 一 个 虚拟 集群 两 级 层次 结构 的 逻辑 示意 图 。 每 个 虚拟 机 都 隔离 地 操作 在 
第 一 级 。 这 将 会 同时 减少 访问 失效 时 间 和 与 其 他 工作 负载 或 虚拟 机 的 性 能 交互 时 间 。 而 且 ， 缓 存 
容量 、 互 连 链接 和 失效 处 理 等 虚拟 机 间 的 共享 资源 都 是 互相 隔离 的 。 第 二 级 维护 了 一 个 全 局 的 
共享 内 存 ， 这 便于 在 不 引起 费时 的 清空 缓存 的 情况 下 动态 再 分 配 资源 。 而 且 ， 维 护 全 局 的 共享 内 
存 可 以 减少 对 已 存在 的 系统 软件 的 修改 并 可 以 包含 虚拟 化 特征 〈 如 基于 内 容 的 页 面 共享 等 ) 。 一 
个 虚拟 层次 结构 可 自 适 应 空间 共享 的 负载 ， 如 多 道 程序 和 服务 器 合并 等 。 图 3-17 显示 了 一 个 在 
瓷砖 式 体系 结 构 中 合并 服务 器 负载 的 学 习 案 例 。 这 个 众 核 映射 机 制 也 能 优化 单一 操作 系统 环境 
中 空间 共享 的 多 道 程序 负载 。 

















b) 多 个 虚拟 集群 被 赋 给 不 同 的 负载 
图 3-17 片上 多 处 理 器 的 服务 器 合并 ， 通 过 虚拟 机 的 空间 共享 将 虚拟 机 映射 到 众 核 上 ， 形 成 多 
个 虚拟 集群 ， 分 别 执行 不 同 的 负载 
注 : 由 Marty 和 Hill!99] 提供 。 
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3.4 虚拟 集群 和 资源 管理 


物理 集群 是 指 一 组 通过 物理 网 络 (如 LAN) 互 连 的 物理 机 器 〈 服 务 器 ) 。 第 2 章 描 述 了 物理 
机 器 上 的 集群 化 技术 。 下 面 将 介绍 虚拟 集群 及 其 属性 并 探索 其 应 用 。 本 节 将 首先 探讨 虚拟 集群 
的 三 个 关键 设计 问题 : 虚拟 机 在 线 迁 移 、 内 存 和 文件 迁移 ， 以 及 虚拟 集群 的 动态 部 署 。 [155] 

初始 化 一 个 传统 虚拟 机 时 ， 管 理 员 需 手动 编辑 配置 文件 或 指定 配置 源 。 当 更 多 的 虚拟 机 加 
和 人 和 网络 时 ， 配 置 不 当 会 引起 负载 过 高 或 负载 不 足 的 问题 。 亚 马 逊 的 EC2 (Elastic Compute Cloud) 
是 Web 服务 方面 的 很 好 例子 ， 在 云 中 提供 弹性 计算 能 力 。EC2 允许 客户 创建 虚拟 机 ， 并 基于 用 
户 使 用 时 间 管 理 账 户 。 大 部 分 虚拟 化 平台 ， 包 括 XenServer 和 VMware ESX Server， 支 持 桥接 模 
式 ， 人 允许 所 有 虚拟 机 作为 独立 主机 出 现在 网 络 上 。 通 过 使 用 这 些 模式 ， 虚 拟 机 之 间 可 以 通过 虚拟 
网 络 接口 任意 通信 ， 并 自动 配置 网 络 。 
3.4.1 物理 集群 与 虚拟 集群 

虚拟 集群 由 多 个 客户 虚拟 机 构成 ， 这 些 客户 虚拟 机 安装 在 由 一 个 或 多 个 物理 集群 构成 的 分 
布 式 服务 器 上 。 在 逻辑 上 ， 处 于 一 个 虚拟 集群 的 客户 虚拟 机 通过 一 个 跨越 了 多 个 物理 网 络 的 虚 
拟 网 络 互 连 在 一 起 。 图 3-18 为 虚拟 集群 和 物理 集群 的 示意 图 。 如 图 所 示 ， 虚 拟 集群 具有 明确 的 
边界 。 一 个 虚拟 集群 可 以 由 多 台 物 理 机 器 构成 ， 也 可 以 由 一 个 可 运行 在 多 个 物理 集群 上 的 虚拟 
机 构成 。 







虚拟 机 








3-18 一 个 具有 4 个 虚拟 集群 的 云 平台 ， 基 于 三 个 颜色 不 同 的 物理 集群 

注 : 由 清华 大 学 的 张帆 提供 。 

为 虚拟 集群 提供 虚拟 机 的 过 程 可 以 动态 进行 ， 具有 如 下 属性 : 

© 虚拟 集群 节点 可 以 是 物理 机 器 或 虚拟 机 器 ， 多 个 运行 不 同 操作 系统 的 虚拟 机 可 以 部 署 在 
同一 个 物理 节点 上 。 

主机 操作 系统 管理 物理 机 器 的 资源 ， 虚 拟 机 运行 其 上 ， 并 且 可 以 运行 与 主机 相 异 的 操作 
系统 。 

使 用 虚拟 机 的 目的 是 合并 同一 台 物 理 服务 器 的 多 个 功能 。 这 可 以 显著 提高 服务 器 的 资源 
利用 率 与 应 用 的 灵活 性 。 156 
虚拟 机 可 以 在 多 个 物理 服务 器 上 备份 ， 以 提高 分 布 式 并 行 度 、 容 错 性 ， 加 快 灾难 恢复 速度 。 
。 虚拟 集群 的 节点 数 可 以 动态 增 减 ， 与 P2P 网 络 中 覆盖 网 络 的 规模 变化 类 似 。 

物理 节点 的 失效 会 使 得 运行 在 其 上 的 虚拟 机 也 失效 ,但 是 虚拟 机 的 失效 不 会 影响 主机 
系统 。 
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随 着 系统 虚拟 化 的 广泛 应 用 ， 对 运行 在 大 量 物 理 计算 节点 上 的 虚拟 机 〈 也 称 为 虚拟 集群 ) 
需要 进行 有 效 管理 ， 从 而 构建 高 性 能 的 虚拟 计算 环境 。 具 体 来 讲 ， 包 括 虚拟 集群 的 部 署 、 大 规模 
集群 的 监视 和 管理 ， 以 及 资源 调度 、 负 载 均衡 、 服 务 器 合并 、 容 错 等 技术 。 图 3-18 中 使 用 虚线 
框 出 的 不 同 颜色 节点 代表 不 同 的 虚拟 集群 。 在 虚拟 集群 系统 中 ， 有 效 地 存储 大 量 虚拟 机 镜像 至 
为 重要 。 

图 3-19 所 示 为 基于 应 用 程序 划分 或 定制 的 虚拟 集群 。 图 中 不 同 颜色 的 节点 属于 不 同 虚拟 集 
群 。 由 于 可 能 会 有 大 量 虚 拟 机 镜像 ， 对 这 些 镜像 文件 的 有 效 存 储 至 为 重要 。 大 部 分 用 户 和 应 用 程 
序 具 有 公共 的 安装 ， 例 如 操作 系统 或 用 户 级 编程 库 。 这 些 软 件 包 可 预先 安装 并 存 为 模板 〈 称 为 
模板 虚拟 机 )。 使 用 这 些 模板 ， 用 户 可 以 构建 个 人 专属 的 软件 环境 。 新 的 操作 系统 实例 可 以 从 模 
giie ia ci E casos 
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T 应 用 程序 
A 的 虚拟 
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应 用 程序 
D 的 虚拟 


图 3-19 基于 应 用 程序 划分 的 虚拟 集群 概念 
iz: 由 清华 大 学 陈 康 提供 ，2008。 


如 图 3-18 所 示 ， 左 边 为 3 个 物理 集群 ， 右 边 为 基于 这 些 物理 集群 的 4 个 虚拟 集群 。 物 理 机 

器 也 称 为 主机 系统 ; 对 应 地 ， 虚 拟 机 也 称 为 客户 系统 。 主 机 系统 和 客户 系统 可 能 运行 不 同 的 操作 
57] 系统 。 虚 拟 机 可 以 被 安装 在 远程 服务 器 上 ， 也 可 以 复制 在 属于 相同 或 不 同 物理 集群 的 多 个 服务 
器 上 。 虚 拟 集群 的 边界 可 能 随 着 虚拟 机 节点 的 增加 、 减 少 或 动态 迁移 而 变化 。 

3.4.1.1 快速 部 署 和 有 效 调度 

系统 应 具备 快速 部 署 的 能 力 。 快 速 部 署 要 求 如 下 两 点 : 一 是 在 集群 内 的 物理 节点 上 尽快 构 
建 和 发 布 软件 栈 (包括 操作 系统 、 库 、 应 用 程序 ); 二 是 运行 时 环境 可 以 从 一 个 用 户 虚 拟 集群 快 
速 切换 至 另 一 个 用 户 虚 拟 集群 。 若 某 用 户 中 止 使 用 其 系统 ， 则 其 对 应 的 虚拟 集群 会 关闭 或 快速 
挂 起 ， 以 节约 资源 来 运行 其 他 用 户 的 虚拟 机 。 

近年 来 ,“ 绿 色 计 算 ” 的 概念 越 来 越 受 到 关注 。 然 而 ， 已 有 方法 主要 关注 单个 工作 站 的 节能 
问题 ， 缺 乏 全 局 视角 ， 因 此 无 法 降低 整个 集群 的 能 耗 。 还 有 些 集群 级 的 节能 技术 只 能 用 于 同 构 工 
作 站 或 特定 应 用 。 虚 拟 机 的 在 线 迁 移 可 使 一 个 节点 的 工作 负载 迁移 至 另 一 个 节点 。 然 而 ， 虚 拟 机 
并 不 能 在 所 有 节点 之 间 随 意 迁移 。 事 实 上 ， 在 线 迁移 虚拟 机 的 潜在 开销 仍 不 容 忽 视 。 

在 线 迁移 虚拟 机 的 开销 可 能 会 严重 影响 集群 的 利用 效率 、 吞 吐 量 、 服 务 质 量 等 。 因 此 ， 在 线 
迁移 的 难点 在 于 如 何 设 计 绿 色 的 迁移 策略 以 不 影响 集群 性 能 。 虚 拟 化 的 另 一 个 优点 是 在 虚拟 集 
群 中 应 用 程序 的 负载 均衡 。 负 载 均衡 可 以 通过 使 用 负载 指数 和 用 户 登 录 频率 等 指标 来 完成 ， 虚 
拟 集群 的 自动 伸缩 机 制 可 以 基于 该 模型 实现 。 因 此 ， 我 们 可 以 增加 节点 的 资源 利用 效率 并 降低 
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系统 的 响应 时 间 。 将 虚拟 机 映射 至 更 合适 的 物理 节点 应 该 会 有 益 于 提升 性 能 。 当 集群 节点 之 上 
的 负载 不 均衡 时 ， 应 在 节点 之 间 动 态 调整 负载 。 

3.4.1.2 高 性 能 虚拟 存储 

定制 虚拟 机 时 ， 模板 虚 拟 机 可 以 被 发 布 至 集群 中 的 多 个 物理 主机 上 。 而 且 ， 已 有 的 软件 包 可 
以 减少 定制 时 间 和 切换 虚拟 环境 的 时 间 。 有 效 管 理 模板 中 软件 占据 的 磁盘 空间 非常 重要 。 一 些 
存储 体系 结构 设计 可 以 用 于 减少 虚拟 集群 分 布 式 文件 系统 中 的 复制 块 。 哈 希 值 用 于 比较 数据 块 
的 内 容 。 在 用 户 特定 的 虚拟 集群 中 ， 用 户 有 自己 的 配置 文件 ， 用 于 记录 相应 于 虚拟 机 的 数据 块 标 
识 信 息 。 当 用 户 修改 数据 时 ， 会 创建 一 个 新 块 ， 同 时 新 创建 数据 块 的 标识 信息 会 记 和 人 用 户 配置 
文件 。 

基本 来 讲 ， 为 目标 集群 部 署 一 组 虚拟 机 需要 如 下 4 个 步骤 : 准备 磁盘 镜像 ; 配置 虚拟 机 ; 选 
择 目 标 节点 ; 在 每 个 主机 上 执行 虚拟 机 部 署 命令 。 许 多 系统 使 用 模板 来 简化 磁盘 镜像 的 准备 过 
程 。 模 板 是 一 个 磁盘 镜像 ， 其 中 存储 了 预 安装 的 操作 系统 ， 有 时 还 存储 了 预 安装 的 应 用 软件 。 用 
户 根据 其 需求 选择 合适 模板 ， 并 创建 一 份 其 独 有 的 磁盘 镜像 。 模 板 可 为 COW (Copy On Write) 
格式 。 新 的 COW 备份 文件 很 小 且 易 于 创建 和 传输 。 因 此 ， 使 用 COW 格式 可 有 效 节约 磁盘 空间 。 
而 且 ， 在 部 等 虚拟 机 时 ， 与 完整 复制 原始 镜像 文件 相 比 ， 虚 拟 机 部 署 时 间 更 短 。 

虚拟 机 的 配置 信息 包括 虚拟 机 名 称 、 磁 盘 镜 像 、 网 络 设 置 、 分 配 的 CPU 和 内 存 等 。 该 配置 
信息 需 被 记录 在 一 个 文件 中 。 然 而 ， 当 管理 一 组 虚拟 机 时 ， 该 方法 很 低 效 。 实 际 上 ， 具 有 相同 配 
置信 息 的 虚拟 机 可 以 使 用 预先 编辑 的 配置 文件 来 简化 这 一 过 程 。 在 这 种 情况 下 ， 系 统 根据 选 定 
的 配置 文件 配置 虚拟 机 。 大 部 分 配置 项 内 容 相 同 ， 但 UUD, BILAP, IP 地 址 等 则 使 用 自动 
计算 的 值 。 用 户 通常 并 不 关心 其 虚拟 机 运行 在 哪个 主机 上 ， 和 需要 提供 一 种 策略 来 为 虚拟 机 选择 
合适 的 目标 主机 。 部 署 原则 是 满足 虚拟 机 需求 并 在 整个 主机 网 络 之 间 平 衡 负载 。 
3.4.2 在 线 迁 移 虚 拟 机 的 步骤 与 性 能 影响 

在 虚拟 集群 中 ， 虚 拟 机 窗户 系统 与 主机 系统 并 存 ， 并 且 虚 拟 机 运行 在 物理 主机 之 上 。 当 一 个 
虚拟 机 失效 时 ， 其 角色 可 被 其 他 节点 上 的 虚拟 机 替代 ， 只 要 两 个 虚拟 机 运行 相同 的 客户 操作 系 
统 即 可 。 换 名 话说 ， 一 个 物理 节点 可 以 故障 转移 至 另 一 个 主机 的 虚拟 机 上 。 这 与 传统 物理 集群 中 
物理 机 器 到 物理 机 器 的 故障 转移 并 不 相同 。 这 种 方式 的 优点 是 具有 更 强 的 故障 转移 灵活 度 ， 但 
潜在 问题 是 当 虚 拟 机 所 驻 留 的 物理 主机 失效 时 必须 停止 该 虚拟 机 的 角色 。 然 而 ， 该 问题 可 以 通 
过 虚拟 机 的 在 线 迁 移 得 到 解决 。 图 3-20 所 示 为 从 主机 A 向 主机 B 在 线 迁 移 虚拟 机 的 过 程 。 在 迁 
移 中 ,将 虚拟 机 的 状态 文件 从 存储 区 域 复 制 到 物理 主机 之 上 。 

管理 虚拟 集群 共有 四 种 方式 。 第 一 种 方式 是 基于 客户 的 管理 器 ， 其 中 集群 管理 器 处 于 客户 
系统 中 。 在 这 种 管理 方式 中 ， 多 个 虚拟 机 形成 一 个 虚拟 集群 。 例 如 ，openMosix 是 一 个 开源 的 
Linux 集群 ， 可 以 在 Xen hypervisor 上 运行 不 同 的 客户 系统 ; 另 一 个 例子 是 Sun 公司 的 集群 软件 
Oasis， 它 是 一 个 实验 性 的 Solaris 集群 ， 基 于 VMware VMM 构建 的 虚拟 机 集群 。 第 二 种 方式 是 基 
于 主机 的 集群 管理 器 。 基 于 主机 的 管理 器 监督 客户 系统 且 能 在 另 一 个 物理 机 器 上 重启 客户 系统 。 
该 方面 的 典型 例子 是 VMware 公司 的 HA 系统 一 一 当 物 理 主机 失效 时 可 以 在 其 他 物理 主机 上 重启 
客户 系统 。 

上 面 提 及 的 两 种 集群 管理 系统 要 么 只 基于 客户 系统 ， 要 人 么 只 基于 主机 系统 ， 下 面 要 描述 的 
两 种 管理 方式 则 既 基 于 客户 系统 也 基于 主机 系统 。 第 三 种 方式 是 在 主机 系统 和 客户 系统 中 使 用 
相互 独立 的 集群 管理 器 来 管理 虚拟 集群 。 然 而 ， 这 会 使 基础 设施 管理 变 得 更 为 复杂 。 第 四 种 方式 
是 在 主机 系统 和 客户 系统 中 使 用 集成 的 集群 。 这 表示 管理 器 能 区 分 虚拟 资源 和 物理 资源 。 当 在 
线 迁 移 虚 拟 机 开销 极 低 时 ， 这 些 集群 管理 方案 都 可 以 得 到 极 大 改善 。 

虚拟 机 可 以 从 一 台 物 理 机 器 在 线 迁 移 至 另 一 台 物 理 机 器 。 发 生 失 效 时 ， 一 个 虚拟 机 可 被 另 
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一 个 虚拟 机 替代 。 虚 拟 集群 可 以 应 用 在 计算 网 格 、 云 平台 和 高 性 能 计算 系统 中 。 虚 拟 集群 化 的 主 
要 吸引 力 在 于 它 可 根据 用 户 需求 或 节点 失效 后 快速 提供 动态 资源 。 尤 其 是 ， 虚 拟 集群 化 在 云 计 
算 中 发 挥 着 重要 作用 。 当 虚拟 机 运行 在 线 服务 时 ， 在 线 虚 拟 机 迁移 方案 的 设计 目标 是 最 小 化 如 
下 三 个 指标 : 微小 的 停机 时 间 、 最 低 的 网 络 带宽 消耗 及 合理 的 总 迁移 时 间 。 
除 此 之 外 ， 在 迁移 过 程 中 ,还 需 确保 不 会 因 资源 (如 CPU、 网 络 带宽 ) 竞争 而 中 断 运 行 在 
同一 个 物理 主机 上 的 其 他 活路 服务。 一 台 虚 拟 机 可 能 处 于 如 下 四 种 状态 之 一 : 非 活 跃 状 态 由 虚 
159] 拟 化 平台 定义 ， 这 时 ， 虚 拟 机 未 被 启用 ; 活跃 状态 指 虚 拟 机 已 在 虚拟 机 平台 上 实例 化 且 正 在 运行 
实际 任务 ; 中 止 状态 指 一 个 已 实例 化 的 虚拟 机 被 禁用 ， 当 被 禁用 时 ， 该 虚拟 机 内 部 可 能 正在 处 理 
一 个 任务 ， 也 可 能 处 于 中 止 等 待 状态 。 当 虚拟 机 的 机 器 文件 和 虚拟 资源 被 存 回 磁盘 时 ， 该 虚拟 机 
进入 挂 起 状态 。 如 图 3-20 所 示 ， 在 线 迁移 虚拟 机 包括 如 下 6 个 步 又。 
步骤 0: 预 迁移 
主机 A 上 激活 虚拟 机 


Pa BW eee re ist ae 
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虚拟 机 在 主机 A 上 正常 运行 
















步骤 1: 预定 
在 目标 主机 上 初始 化 一 个 容器 








步 又 2: ett — 
使 得 影子 页 表 模 式 
TIDES FR SR PARERIK 













步骤 3: 停止 并 复制 

在 主机 A 上 挂 起 虚拟 机 

发 起 ARP 以 将 网 络 重 定向 到 主机 B 
将 虚拟 机 的 所 有 其 余 状 态 同步 至 主机 B 


停机 时 间 ( 虚拟 机 停止 服务 ) 





步骤 4， 提 交 
释放 主机 A 上 的 虚拟 机 状态 


虚拟 机 在 主机 B 上 正常 运行 P. Meds 
在 主机 B 上 启动 虚拟 机 








连接 本 地 设备 
恢复 正常 操作 


图 3-20 从 一 台 物 理 主 机 向 另 一 台 物 理 主机 在 线 迁 移 虚 拟 机 的 过 程 
注 ; WC. Clark 等 人 [14] 提供 。 


PROMI: 开始 迁移 。 该 步骤 主要 为 后 续 的 迁移 做 准备 ， 包 括 确 定 要 迁移 的 虚拟 机 和 目标 
主机 。 尽 管用 户 可 以 手动 将 一 台 虚 拟 机 迁移 到 一 台 合 适 的 物理 主机 上 ， 但 大 部 分 情况 下 ， 迁 移 是 
因 负 载 均 衡 和 服务 器 合并 等 策略 自动 发 起 的 。 

步骤 2: 传输 内 存 。 由 于 虚拟 机 的 整个 执行 状态 都 存储 在 内 存 之 中 ， 因 此 向 目标 节点 发 送 虚 
拟 机 的 内 存 可 以 确保 虚拟 机 提供 服务 的 连续 性 。 第 一 轮 会 传输 所 有 的 内 存 数据 ， 后 续 的 传输 会 
不 断 地 和 迭代 复制 刚 更 新 过 的 数据 ， 该 过 程 重复 进行 ， 直 至 脏 的 内 存 页 足够 少 。 在 该 步骤 中 ， 尽 管 

[160] 一 直 在 和 迭代 复制 内 存 ， 但 并 不 中 斯 程序 的 运行 。 

步骤 3: 挂 起 虚拟 机 并 复制 最 后 的 内 存 数 据 。 在 最 后 一 轮 传输 内 存 数据 时 ， 挂 起 正在 被 迁移 
的 虚拟 机 。 其 他 非 内 存 数据 (如 CPU 和 网 络 状态 ) 也 被 同时 发 送 。 在 该 步骤 中 ， 虚 拟 机 停止 且 
其 应 用 不 再 运行 。 这 一 段 的 不 可 用 时 间 称 为 迁移 的 停机 时 间 。 应 尽量 缩短 停机 时 间 ， 使 得 用 户 无 
法 觉察 。 
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步骤 4 和 5: 提交 并 激活 新 主机 。 在 复制 了 所 有 需要 的 数据 之 后 ， 在 目标 主机 上 ， 虚 拟 机 重 
新 装载 其 状态 ， 恢 复 在 其 中 执行 的 程序 ， 并 继续 提供 服务 。 然 后 ， 网 络 连 接 被 重 定向 至 新 虚拟 
机 ， 对 源 主机 的 依赖 被 清除 。 最 后 ， 从 源 主机 中 移 除 原始 虚拟 机 。 至 此 ， 整 个 迁移 过 程 结束 。 

图 3-21 所 示 为 虚拟 机 从 一 台 主 机 在 线 迁 移 至 另 一 台 主 机 的 数据 传输 速率 (MB/s) 的 变化 情 
况 。 在 本 实验 中 ， 为 100 个 客户 端 复制 512 KB 的 文件 。 在 开始 复制 之 前 ， 数 据 吞 吐 量 为 
870 MB/s。 第 一 轮 预 复制 历时 63s， 期 间 的 数据 传输 速率 降低 为 765 MB/s。 后 续 的 迭代 复制 过 程 
共 历 时 9. 8s， 数 据 传输 速率 进一步 降低 为 694 MB/s。 在 虚拟 机 在 目标 主机 上 恢复 执行 之 前 ， 系 
统 的 停机 时 间 为 165 ms。 实 验 结果 表明 在 主机 节点 之 间 在 线 迁 移 虚 拟 机 的 开销 很 低 。 这 对 于 实 

现 云 计算 中 的 动态 集群 重 配 置 和 灾难 恢复 非常 关键 。 第 4 章 将 进一步 深入 探讨 相关 技术 。 

迁移 Web 服 务 器 的 数据 传输 速率 变化 情况 
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图 3-21 将 虚拟 机 从 一 个 失效 的 Web 服务 器 迁移 到 另 一 台 服 务 器 期 间 的 数据 传输 速率 变化 情况 
ie: h C. Clark 等 人 [14] 提供 。 


随 着 十 多 年 前 集群 计算 的 出 现 和 广泛 普及 ， 涌 现 了 大 量 集群 配置 和 管理 系统 ， 它 们 自然 会 
影响 个 人 的 集群 管理 方式 。 虚 拟 机 技术 已 经 成 为 一 项 简化 管理 和 共享 物理 计算 资源 的 流行 方法 。[I161 
虚拟 机 平台 (如 VMware fl Xen) 使 得 在 同一 台 物 理 主 机 上 同时 运行 多 个 不 同 操作 系统 和 配置 的 
虚拟 机 成 为 可 能 ， 而 且 这 些 虚拟 机 之 间 相 互 隔离 。 用 低 成 本 计算 机 组 建 集群 成 为 网 络 服务 和 计 
算 密集 型 应 用 获得 可 靠 的 、 可 扩展 的 计算 能 力 的 一 种 有 效 方式 。 

3.4.3 内 存 、 文 件 与 网 络 资源 的 迁移 

由 于 集群 具有 较 高 的 初始 拥有 成 本 ， 包 括 空间 、 功 率 调 节 、 制 冷 设 备 等 。 当 需求 变化 较 大 
时 ， 租 赁 或 共享 公用 集群 更 具 吸 引力 。 共 享 集群 具有 规模 经 济 效益 ， 并 且 因 复 用 而 产生 更 有 效 的 
资源 利用 率 。 早 期 的 配置 和 管理 系统 主要 集中 在 为 特定 类 型 服务 定义 集群 时 提供 富有 表现 力 和 
可 扩展 的 机 制 ， 并 在 这 些 类 型 之 间 物 理 划分 集群 节点 。 当 一 个 系统 迁移 到 其 他 物理 节点 时 ， 需 要 
考虑 诸多 问题 ， 下 面 将 分 别 讨 论 。 

3.4.3.1 内 存 迁 移 

内 存 迁 移 在 虚拟 机 迁移 时 很 重要 。 将 虚拟 机 的 内 存 实例 从 一 个 物理 节点 迁移 至 另 一 个 物理 
节点 的 方法 很 多 ， 但 这 些 不 同 的 方法 具有 共同 的 实现 机 制 。 这 些 机 制 依赖 于 客户 操作 系统 支持 
的 应 用 或 负载 特征 。 

对 现在 的 一 个 典型 的 系统 而 言 ， 需 迁移 的 内 存量 可 达 上 百 兆 甚 至 千 兆 ， 因 此 必须 进行 有 效 
传输 。 在 虚拟 机 挂 起 和 恢复 执行 之 间 ， 可 能 有 很 多 重生 的 内 存 ，ISR (Internet Suspend- Resume， 
互联 网 挂 起 -恢复 ) 技术 利用 了 这 种 时 间 局 部 性 ， 这 里 的 时 间 局 部 性 指 不 同 状态 的 内 存 只 与 发 
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起 迁移 之 前 虚拟 机 被 挂 起 期 间 所 完成 的 工作 相关 。 

为 利用 时 间 局 部 性 ， 文 件 系统 中 的 每 个 文件 用 一 个 小 的 子 文件 树 代表 。 该 树 的 复制 同时 存 
在 于 挂 起 和 恢复 的 虚拟 机 实例 中 。 使 用 树 表示 文件 的 优势 在 于 缓存 确保 只 传输 被 修改 的 文件 。 
ISR 可 以 处 理 非 在 线 迁 移 虚 拟 机 的 情况 。 可 以 预见 ， 与 稍 后 讨论 的 其 他 方法 相 比 ， 该 方法 停机 时 
间 〈 停 机 时 间 指 因 无 虚拟 机 实例 执行 而 引起 服务 暂停 的 持续 时 间 ) 较 长 。 

3.4.3.2 文件 系统 迁移 

为 支持 虚拟 机 迁移 ， 必 有 需 为 每 个 虚拟 机 提供 一 个 一 致 的 、 位 置 无 关 的 、 在 所 有 物理 主机 上 都 
可 访问 的 文件 系统 。 满 足 该 需求 的 一 种 简单 方法 是 为 每 台 碟 拟 机 提供 自己 的 虚拟 磁盘 ， 将 虚拟 
机 的 文件 系统 映射 至 该 虚拟 磁盘 ， 在 迁移 虚拟 机 时 ， 将 虚拟 磁盘 内 容 与 虚拟 机 的 其 他 状态 一 起 
传输 。 然 而 ， 由 于 当前 大 容量 磁盘 较为 普及 ， 跨 网 络 迁 移 整 个 磁盘 内 容 并 不 可 行 。 另 一 种 方法 是 
为 所 有 物理 机 器 设置 一 个 所 有 虚拟 机 都 可 以 访问 的 全 局 文件 系统 。 因 为 所 有 文件 都 可 以 通过 网 
络 直接 访问 ， 所 以 在 迁移 虚拟 机 时 ， 该 方法 无 需 再 复制 磁盘 文件 。 ， 

ISR 使 用 分 布 式 文件 系统 ， 但 传输 挂 起 的 虚拟 机 状态 对 该 分 布 式 文件 系统 透明 。 实 际 上 ， 
VMM 仅 访 问 其 本 地 文件 系统 ，ISR 的 文件 系统 并 未 直接 映射 至 分 布 式 文件 系统 。 在 执行 恢复 运 
行 操作 时 ， 相 关 的 虚拟 机 文件 被 显 式 地 复制 至 本 地 文件 系统 中 ; 在 执行 挂 起 操作 时 ， 这 些 文件 也 
会 被 显 式 地 从 本 地 文件 系统 复制 至 分 布 式 文件 系统 中 。 该 方法 将 VMM 与 特定 分 布 式 文件 系统 的 
语义 进行 分 离 ， 使 得 开发 者 无 需 为 不 同 的 分 布 式 文件 系统 一 一 实现 不 同 的 系统 调用 。 然 而 ， 该 解 
HARE VMM BIR AST EI BLE ASME ER EREE A, 且 在 迁移 虚拟 机 时 ， 需 将 虚拟 
磁盘 内 容 与 虚拟 机 的 其 他 状态 一 起 迁移 。 

在 复制 中 ，VMM 利用 了 了 空 s 间 局 部 性 。 人 们 通常 在 少数 相同 位 轩 (如 家 和 办 公 室 ) 之 间 移 
动 。 在 这 种 情况 下 ， 只 需要 传输 挂 起 和 恢复 时 两 个 文件 系统 之 间 的 不 同 部 分 即 可 。 该 机 制 可 显著 
降低 需要 实际 传输 的 物理 数据 量 。 在 无 局 部 性 可 利用 的 情况 下 ， 另 一 种 有 效 的 方法 是 在 恢复 站 
点 合成 大 部 分 的 磁盘 状态 。 在 许多 系统 中 ， 用 户 文 件 仅 形成 磁盘 上 的 少量 数据 ， 操 作 系 统 和 应 用 
程序 软件 则 占据 了 大 量 磁 盘 空 间 。 在 恢复 站 点 可 以 合理 预测 时 ， 主 动 传输 状态 的 方法 可 以 有 效 
工作 。 

3.4.3.3 网 络 迁 移 

迁移 虚拟 机 时 应 维持 所 有 开放 的 网 络 连 接 ， 不 应 依赖 原始 主机 转发 或 者 依赖 移动 性 或 重 定 
向 机 制 的 支持 。 为 使 远程 系统 能 定位 一 个 虚拟 机 并 与 其 通信 ， 每 个 虚拟 机 必须 被 赋予 一 个 其 他 
实体 可 知 的 虚拟 IP 地 址 。 该 地 址 可 以 与 虚拟 机 所 在 的 物理 机 器 的 IP 地 址 不 同 。 每 个 虚拟 机 也 可 
以 拥有 自己 不 同 的 MAC 地址 。VMM 维护 虚拟 I 和 MAC 地 址 之 间 的 上 映射 关系 。 通 常 ， 迁 移 的 虚 
拟 机 包含 所 有 的 协议 状态 并 携带 其 IP 地 址 。 

如 果 迁 移 中 的 虚拟 机 的 源 主 机 和 目标 主机 正好 处 于 一 个 单一 转换 局 域 网 中 ， 源 主机 会 通过 
主动 发 出 一 个 ARP 回复 来 广播 其 IP 地 址 已 被 移 到 一 个 新 的 地 址 。 该 方法 通过 重新 配置 所 有 端 将 
未 来 的 包 发 送 到 一 个 新 位 置 ， 解 决 了 开放 网 络 连 接 问 题 。 除 了 已 被 传输 的 少量 包 可 能 已 丢失 外 ， 
该 机 制 并 无 其 他 问题 。 如 果 虚 拟 机 的 源 主 机 和 目标 主机 处 在 一 个 交换 网 络 中 ， 迁 移 中 的 操作 系 
统 可 以 保持 其 原始 的 以 太 网 MAC 地 址 不 变 ， 由 网 络 交 换 机 探测 其 已 移动 到 一 个 新 的 端口 。 

在 线 迁 移 意 味 着 把 虚拟 机 从 一 个 物理 节点 移 向 另 一 个 物理 节点 ， 同 时 ， 还 保持 其 操作 系统 
环境 和 应 用 程序 的 完整 性 。 该 能 力 正 在 被 越 来 越 多 地 应 用 在 今天 的 企业 环境 中 ， 以 提供 有 效 的 
在 线 系统 维护 、 重 配置 、 负 载 均衡 和 主动 容错 等 。 它 可 为 现代 计算 系统 中 的 计算 资源 提供 服务 器 
合并 、 性 能 隔离 及 易 管理 性 等 特征 。 因 此 ， 涌 现 了 大 量 可 提供 上 述 特征 的 不 同 实现 。 在 传统 的 迁 
移 中 ， 挝 移 之 前 需要 挂 起 虚拟 机 ， 迁 移 完成 后 才 恢复 执行 。 通 过 引信 预 复制 机 制 ， 虚 拟 机 可 以 在 
线 迁移 ， 而 且 在 迁移 过 程 中 无 需 停止 虚拟 机 ， 并 可 保持 应 用 程序 的 连续 执行 。 
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在 线 迁 移 是 系统 虚拟 化 技术 的 一 个 关键 特征 。 这 里 ， 我 们 集中 关注 集群 环境 中 的 虚拟 机 迁 
B, 其中， 使 用 网 络 文件 系统 ， 如 SAN 或 NAS。 这 时 ， 只 有 内 存 和 CPU 状态 需要 从 源 节 点 传输 
到 目标 节点 。 现 有 的 在 线 迁移 机 制 主要 使 用 预 复制 的 方法 ， 首 先 传输 所 有 的 内 存 页 ， 然 后 迭代 地 
只 传输 上 次 传输 过 程 中 被 修改 的 内 存 页 。 通 过 使 用 迭代 复制 ， 虚 拟 机 服务 的 停机 时 间 很 短 。 当 应 
用 程序 可 写 工作 集 变 得 很 小 时 ， 挂 起 虚拟 机 并 且 将 上 一 轮 传输 中 的 脏 页 和 CPU 状态 发 送 给 目标 
节点 。 

在 预 复制 过 程 中 ， 尽 管 虚 拟 机 的 服务 仍 可 用 ,但 由 于 迁移 需 一 轮 一 轮 不 断 地 消耗 网 络 带宽 
来 传输 脏 页 ， 对 性 能 的 负面 影响 很 大 。 通 过 引入 自 适应 的 传输 率 限 制 方法 可 缓解 该 问题 ,但 总 的 
迁移 时 间 可 能 会 被 延长 近 10 倍 。 而 且 ， 并 不 是 经 过 多 轮 迭 代 后 ， 所 有 应 用 程序 的 脏 页 都 一 定 会 
收敛 为 一 个 小 的 可 写 工作 集 ， 因 此 ， 必 须 为 选 代 轮 数 设置 上 限 值 。 

事实 上 ， 上 述 预 复制 阶段 的 问题 是 由 迁移 过 程 中 需 传 输 大 基数 据 引起 的 。 新 提出 的 CR/TR- 
Motion (checkpointing/recovery and trace/replay approach) 的 方法 可 快速 迁移 虚拟 机 。 该 方法 在 多 
轮 迭 代 中 传输 执行 踪迹 文件 而 非 脏 页， 其 中 ， 踪 迹 文 件 由 一 个 后 台 进 程 记 录 。 显 然 ， 所 有 踪迹 文 
件 的 总 大 小 显著 小 于 脏 页 大 小 。 因 此 ， 总 的 迁移 时 间 和 停机 时 间 得 到 显著 缩短 。 然 而 ，CR/TR- 
Motion 方法 只 在 踪迹 回放 速率 大 于 踪迹 增长 速率 时 可 有 效 工 作 。 这 种 源 节点 和 目标 节点 之 间 的 不 
平等 限制 了 集群 中 在 线 迁 移 的 应 用 范围 。 

还 有 一 种 在 线 迁移 虚拟 机 的 方法 是 后 复制 。 在 该 方法 中 ， 所 有 内 存 页 在 整个 迁移 过 程 中 只 
传输 一 次 ， 迁 移 时 间 基 线 较 短 。 但 是 ， 由 于 在 目标 节点 上 恢复 执行 虚拟 机 之 前 需要 显 式 地 从 源 节 
点 获取 所 需 的 内 存 页 面 ， 该 方法 的 停机 时 间 显 著 高 于 预 复制 方法 。 随 着 多 核 和 众 核 的 引入 ， 许 多 
CPU 资源 被 闲置 。 即 使 在 一 台 多 核 机 器 上 同时 运行 许多 虚拟 机 ， 由 于 物理 CPU 易于 复 用 ，CPU 
资源 仍 很 富裕 。 通 过 利用 闲置 的 CPU 资源 来 压缩 内 存 页 面 ， 可 以 显著 降低 传输 数据 量 。 通 常 来 
讲 ， 内 存 压 缩 算法 的 内 存 开 销 很 小 。 解 压缩 相对 快速 简单 ， 且 无 需 额外 内 存 。 

3.4.3.4 在 线 迁 移 Xen 虚拟 机 

3.2.1 节 已 描述 了 Xen 虚拟 机 ， 它 允许 多 个 商业 操作 系统 安全 且 有 序 地 共享 x86 硬件 。 下 面 
例子 将 解释 在 两 个 Xen 主机 之 间 如 何在 线 迁 移 虚 拟 机 。 其 中 ，Domain 0 (或 Dom 0) 负责 创建 、 
中 止 或 迁移 虚拟 机 ，Xen 使 用 发 送 /接收 模式 在 虚拟 机 之 间 传 输 状 态 。 

例 3.8 在 两 个 Xen 主机 之 间 在 线 迁移 虚拟 机 

Xen 支持 在 线 迁移 。 对 虚拟 化 平台 来 讲 ， 在 线 迁 移 是 个 有 用 特征 和 自然 扩展 ， 其 中 ， 将 一 个 
虚拟 机 从 一 全 物理 主机 迁移 至 另 一 台 物 理 主机 的 过 程 中 要 求 只 短暂 中 断 虚 拟 机 提供 的 服务 其 至 
不 中 断 服务 。 在 线 迁 移 通 过 网 络 传 输 正 在 运行 的 虚拟 机 的 工作 状态 和 内 存 页 面 。Xen 也 支持 一 种 
称 为 RDMA (Remote Direct Memory Access， 远 程 定向 内 存 访 问 ) 的 虚拟 机 迁移 机 制 。 

RDMA 无 需 经 过 TCP/IP 栈 的 处 理 ， 加 速 了 虚拟 机 的 迁移 过 程 。RDMA 与 其 他 传输 协议 不 同 
的 地 方 在 于 ， 在 进行 传输 之 前 ， 必 须 事 先 注册 源 和 目标 虚拟 机 的 缓存 ， 通过 这 种 方式 把 它 缩减 为 
一 个 单方 接口 。RDMA 之 上 的 数据 通信 不 涉及 CPU、 缓 存 或 上 下 文 切换 等 操作 ， 使 得 迁移 对 客户 
操作 系统 和 主机 应 用 程序 的 影响 极 小 。 图 3-22 展示 了 虚拟 机 迁移 的 压缩 机 制 。 

设计 需要 在 两 个 因素 之 间 进 行 权衡 如 果 一 个 算法 知道 内 存 页 面 的 规律 性 ， 它 一 定 快 而 有 效 。 
然而 ， 针 对 所 有 内 存 数据 仅 提供 单一 的 压缩 算法 ， 很 难 达 到 我 们 所 期 望 的 双 启 状态， 因此， 我们 根 
据 内 存 页 面 的 规律 ， 为 其 提供 不 同 的 压缩 算法 。 该 在 线 迁 移 系统 的 结构 见 图 3-22 中 的 Dom 0。 

管理 虚拟 机 中 运行 的 后 台 迁 移 进程 负责 发 起 迁移 操作 。 在 预 复制 阶段 ，VMM 层 的 影子 页 表 
跟踪 迁移 虚拟 机 被 修改 的 内 存 页 面 ， 并 在 脏 位 图 中 设置 相应 位 。 在 每 轮 预 复制 的 开始 ， 位 图 被 发 
送 给 后 台 迁 移 进 程 。 接 下 来 ， 清 除 位 图 ,在 下 一 轮 复 制 中 销毁 并 重建 影子 页 表 。 位 图 所 对 应 的 内 
存 页 面 经 压缩 后 发 送 给 目标 主机 ， 在 目标 主机 端 再 将 这 些 页 面 解压 缩 。 E 
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图 3-22 ”从 零 域 在 线 迁 移 虚 拟 机 到 一 个 基于 Xen 的 目标 主机 


3.4.4 虚拟 集群 的 动态 部 署 
表 3-5 总 结 了 4 个 虚拟 集群 研究 项 目 。 我 们 从 设计 目标 和 报告 结果 入 手 对 它们 进行 了 简要 介 
绍 。 美 国 斯 坦 福 大 学 的 Cellular Disco 项 目 是 一 个 建造 在 共享 内 存 多 处 理 器 系统 中 的 虚拟 集群 ; 
INRIA (法 国 国 家 信息 与 自动 化 研究 所 ) 虚拟 集群 则 用 于 测试 并 行 算法 性 能 ; COD 和 VIOLIN 集 
[165] 群 将 在 下 面 的 例子 中 详细 阐述 。 





表 3-5 4 个 研究 型 虚拟 集群 的 实验 结果 












设计 目标 结 R 
使 用 虚拟 集群 管理 系统 的 动态 资源 | ”通过 多 个 使 用 Sun GridEngine 的 虚拟 集 
分 配 群 来 共享 虚拟 机 
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美国 斯 坦 福 大 学 的 Cellular 在 一 个 共享 内 存 多 处 理 器 上 部 署 虚 部 署 在 多 核 处 理 器 上 的 处 于 同一 
Disco 项 目 拟 集 群 VMM 之 下 的 虚拟 机 称 为 Cellular Disco"! 
美国 普度 大 学 的 VIOLIN 项 目 多 虚拟 机 集群 化 以 证 明 动 态 自 适应 通过 自 适应 降低 运行 VIOLIN 的 应 用 程 
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例 3.9 美国 杜 克 大 学 的 COD 项 目 

由 美国 杜 克 大 学 开发 的 COD 项 目 是 一 个 从 资源 池 向 多 个 虚拟 集群 动态 分 配 服务 器 资源 的 虚 
拟 集群 管理 系统 。 图 3-23 展示 了 COD 项 目的 原型 实现 。COD 将 一 个 物理 集群 划分 为 多 个 虚 
拟 集群 (vCluster), vCluster 的 拥有 者 可 以 通过 XML-RPC 接口 为 集群 指定 操作 系统 和 软件 。 
vCluster 使 用 Sun 公司 的 GridEngine 作为 批 处 理 调度 器 ，GridEngine 运行 于 一 个 Web 服务 器 集群 
之 中 。COD 可 根据 负载 的 变化 动态 调整 并 重建 虚拟 集群 。 

杜 克 大 学 的 研究 者 使 用 Sun GridEngine (SCE) 调度 器 展示 了 动态 虚拟 集群 是 对 效用 计算 
(如 网 格 ) 中 高 级 资源 管理 的 一 个 基础 抽象 。 系 统 支 持 本 地 用 户 和 托管 网 格 服务 之 间 动 态 的 、 基 
于 策略 的 集群 共享 。 具 有 吸引 力 的 特征 包括 资源 保留 、 适 应 性 资源 配置 、 空 闲 资源 回收 和 动态 实 
例 化 网 格 服务 。COD 服务 由 一 个 配置 数据 库 支持 。 系 统 根据 用 户 请 求 提供 资源 策略 和 模板 定义 。 

图 3-24 展示 了 在 8 天 在 线 部 署 三 个 虚拟 集群 期 间 每 个 虚拟 集群 中 节点 数目 的 变化 情况 。 在 
图 3-24 所 示 的 踪迹 图 中 分 别 使 用 System, Architecture 和 BioGeometry 代表 由 三 个 用 户 组 请 求 的 三 
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图 3-23 COD 将 一 个 物理 集群 划分 为 多 个 虚拟 集群 
iz: W J. Chase 等 人 提供 [12] 。 


个 应 用 负载 。 该 实验 中 ， 使 用 了 多 个 SGE 批 处 理 池 ，SGE 处 于 杜 克 集 群 80 个 机 架 式 IBM xSeries- 
335 服务 器 中 。 该 踪迹 曲线 图 清楚 地 展示 了 8 天 之 中 节点 数目 的 突变 情况 。 由 此 可 见 ， 在 现实 集 


群 应 用 中 ， 对 虚拟 集群 的 动态 配置 和 释放 很 有 必要 。 图 
80 
E Systems 
= oe a 
60 MB Biogeometry 


50 


40 


节点 数目 





时 间 (天 ) 
图 3-24 在 杜 克 大 学 运行 8 天 COD 时 集群 规模 的 变化 情况 
iz; W J. Chase 等 人 [12] 提供 。 


例 3.10 普度 大 学 的 VIOLIN 项目 

普度 大 学 的 VIOLIN 项 目 使 用 虚拟 机 在 线 迁移 来 重新 配置 虚拟 集群 环境 。 该 项 目的 目的 是 在 
一 个 多 集群 环境 中 执行 多 个 集群 作业 时 获得 更 优 的 资源 利用 效率 。 它 利用 成 熟 的 虚拟 机 迁移 技 网 
术 和 环境 适应 技术 ， 使 得 在 由 多 个 域 构成 的 共享 物理 基础 设施 上 形成 互相 隔离 的 虚拟 环境 来 执 
行 并 行程 序 。 图 3-25 展示 了 使 用 5 个 并 发 虚拟 环境 (VIOLINI~5S) 共享 两 个 物理 集群 的 情况 。 

不 同 颜 色 的 方块 代表 部 署 在 物理 服务 器 节点 中 的 虚拟 机 。 普 度 大 学 该 研究 组 的 主要 贡献 在 
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于 使 用 虚拟 计算 环境 的 自 适 应 作为 活跃 的 、 集 成 的 实体 。 虚 拟 执行 环境 能 够 通过 基础 设施 重 定 
位 自己 ， 并 能 依 比 例 改 变 其 基础 设施 资源 的 共享 。 这 种 自 适应 对 虚拟 环境 中 的 用 户 和 基础 设施 
的 管理 员 都 透明 。 在 解析 一 个 具有 100 万 粒子 的 大 型 NEMO 3D 问题 需 1 200s 的 情况 下 ， 自 适应 
开销 可 维持 在 20s。 


不 进行 自 适应 进行 自 适 应 国 VIOLIN 1 [DVIOLIN4 
域 2 国 VIOLIN2 [VIOLINS 
E] VIOLIN 3 


1. 初始 化 VIOLIN 
1、2 和 3 在 计算 

















2. 自 适应 之 前 ， 
VIOLIN 2 结束 
之 后 











3. 自 适应 之 后 








.在 VIOLIN 4 
和 5 创建 之 后 


" s 
Ce] 
5. VIOLIN 1 和 3 
结束 之 后 


图 3-25 VIOLIN 在 5 个 虚拟 环境 共享 2 个 托管 集群 的 自 适应 场景 。 注 意 ， 自 适应 前 后 都 有 很 多 空闲 
节点 《空白 方块 ) 
i: W P. Ruth 等 人 1551 提供 。 
168 由 此 可 见 ， 虚 拟 环境 自 适 应 可 以 用 少 于 19% 的 执行 时 间 开 销 显著 提高 资源 利用 效率 。VIOLIN 
环境 的 迁移 确实 取得 了 成 功 。 当 然 ， 共 享 资 源 利 用 率 的 改进 使 许多 用 户 受 益 。 性 能 改进 则 随 不 同 
的 适应 场景 而 有 所 变化 。 为 说 明 不 同 ， 我 们 在 本 章 结 尾 为 读者 留 了 一 个 家 庭 作 业 (习题 3.17) 
来 跟踪 另 一 种 场景 的 执行 。 虚 拟 网 络 是 VIOLIN 系统 的 一 个 基本 组 成 部 分 。 | 


3.5 数据 中 心 的 自动 化 与 虚拟 化 


近年 来 ， 数 据 中 心 发 展 迅 速 ， 主 要 IT 公司 (MAM, HE, WO, RK, BH. KERR 
IBM 公司 ) 都 在 投入 资源 建造 新 的 数据 中 心 ， 数 十 亿美 元 被 投资 在 数据 中 心 的 建设 和 自动 化 方 
面 。 数 据 中 心 自动 化 意味 着 在 保证 服务 质量 和 成 本 效率 的 情况 下 ， 数 据 中 心中 的 大 量 硬 件 、 软 件 
和 数据 库 资源 可 被 动态 地 同时 分 配给 数 百 万 的 互联 网 用 户 。 

虚拟 化 产品 和 云 计 算 服 务 的 增长 引发 了 数据 中 心 自 动 化 的 发 展 。 根 据 2007 年 IDC 的 一 篇 报 
道 ， 自 2006 年 至 2011 年 ， 虚 拟 化 及 其 市 场 主要 分 布 在 IT 行业 。2006 年 ， 在 商业 和 企业 机 会 中 
虚拟 化 占有 的 市 场 份额 为 104 400 万 美元 ， 其 中 ， 产 品 整合 和 软件 开发 占 主 要 部 分 。 虚 拟 化 正在 
朝向 加 强 移动 性 、 减 少 计划 停机 时 间 〈 如 系统 维护 ) 、 增 加 虚拟 终端 数目 的 目标 迈进 。 

最 新 的 虚拟 化 开发 主要 关注 高 可 用 性 、 备 份 服务 、 负 载 均 衡 和 客户 群 的 深入 增长 。IDC 从 自 
动 化 、 服 务 导向 、 基 于 策略 和 可 变 成 本 方面 对 虚拟 化 市 场 进行 了 分 析 : 到 2011 年 ， 虚 拟 化 的 商 
业 机 会 可 能 会 增加 到 32 亿美 元 ; 主要 的 市 场 份额 会 向 高 可 用 性 、 效 用 计算 、 产 品 整 合 和 客户 群 
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方向 倾斜 。 在 下 文中 ,我 们 将 讨论 自动 化 的 数据 中 心 设计 中 涉及 的 问题 ， 包 括 服 务 器 合并 、 虚 拟 
存储 、 操 作 系统 支持 和 可 信 管 理 。 
3.5.1 数据 中 心服 务 器 合并 
在 数据 中 心中 ， 大 量 不 同类 型 的 负载 可 以 在 不 同时 期 运行 在 服务 器 上 。 这 些 不 同类 型 负载 
大 致 可 分 为 两 类 : 交互 频繁 型 负载 和 非 交互 型 负载 。 交 互 频繁 型 负载 会 发 起 突 发 性 的 操作 ， 然 后 
又 回归 沉 舟 。 网 络 视频 服务 就 是 该 方面 的 典型 例子 ， 其 中 夜间 会 有 大 量 用 户 ， 而 白天 却 用 户 很 
少 。 非 交互 型 负载 则 在 任务 提交 后 不 再 需要 用 户 的 参与 。 高 性 能 计算 是 该 方面 的 典型 例子 。 在 不 
同 阶段 ， 这 些 负载 对 资源 的 需求 也 有 显著 的 不 同 。 然 而 ， 为 保证 负载 总 可 以 及 时 响应 处 理 请 求 ， 
常常 按 峰 值 需求 为 负载 静态 分 配 足 够 资源 。 对 于 数据 中 心中 的 服务 器 虚拟 化 ， 资 源 优化 的 粒度 
主要 是 CPU、 内 存 和 网 络 接口 。 
因此 ， 在 数据 中 心中 ， 大 部 分 服务 器 的 资源 并 未 得 到 充分 利用 。 大 量 硬 件 、 空 间 、 能 耗 和 管 
理 成 本 被 浪费 。 服 务 器 合并 采用 减少 物理 服务 器 数目 的 方法 ， 是 改进 硬件 资源 低 利用 效率 的 有 
效 途 径 。 在 许多 服务 器 合并 技术 〈 如 集中 合并 和 物理 合并 ) 中 ， 基 于 虚拟 化 的 服务 器 合并 是 最 
有 效 的 合并 方式 。 数 据 中 心 需要 优化 其 资源 管理 ， 但 是 这 些 服务 器 合并 技术 在 服务 器 整 机 级 别 
进行 ， 很 难 使 资源 管理 得 到 有 效 优化 。 服 务 器 虚拟 化 则 处 在 一 个 比 物理 服务 器 更 小 的 资源 分 配 
粒度 上 ， 可 以 更 有 效 地 优化 资源 管理 。 
通常 来 讲 ， 虚 拟 机 的 引入 增加 了 资源 管理 的 复杂 度 。 在 数据 中 心中 ， 在 改进 资源 利用 效率 的 
基础 上 如 何 保证 服务 质量 成 为 一 个 挑战 。 具 体 来 讲 ， 服 务 器 虚拟 化 还 会 产生 以 下 额外 效果 ; 
。 合并 增强 了 硬件 利用 效率 。 合 并 未 被 充分 利用 的 服务 器 可 以 增强 资源 利用 效率 。 合 并 也 
使 得 备份 服务 和 灾难 恢复 更 便于 进行 。 
。 这 种 方法 可 以 使 资源 得 到 更 灵活 的 配置 和 调度 。 在 虚拟 化 环境 中 ,易于 克隆 和 重用 客户 
操作 系统 及 其 应 用 程序 的 镜像 。 
。 总 体 拥有 成 本 得 到 降低 。 服 务 器 虚拟 化 可 以 延迟 服务 器 的 更 新 ， 降 低 数据 中 心 场地 占用 、 
维护 成 本 、 耗 电 、 制 冷 和 线 缆 需求 。 
。 这 种 方法 可 以 改进 可 用 性 和 业务 连续 性 。 某 个 客户 操作 系统 的 故障 并 不 会 影响 其 主机 系 
统 或 其 他 客户 操作 系统 。 由 于 虚拟 服务 器 对 其 之 下 的 硬件 透明 ， 易 于 将 虚拟 机 从 一 台 服 
务 器 迁移 至 另 一 台 服 务 器 。 

为 目 动 化 数据 中 心 操作 ， 必 须 考虑 资源 调度 、 体 系 结构 支持 、 能 耗 管理 、 自 动 或 自主 的 资源 
管理 、 分 析 模 型 性 能 等 。 在 虚拟 化 数据 中 心中 ， 有 效 的 、 按 需 的 、 细 粒度 的 调度 器 是 改进 资源 利 
用 效率 的 一 个 关键 因素 。 资 源 调度 和 重 分 配 可 在 数据 中 心 的 多 个 级 别 进 行 ， 至 少 应 与 虚拟 机 级 
别 、 服 务 器 级 别 或 数据 中 心 级 别 匹 配 。 理 想 情况 下 ， 资 源 调度 和 重 分 配 应 在 所 有 级 别 进行 ， 但 过 
于 复杂 。 实 际 上 ， 当 前 技术 只 关注 单一 级 别 或 至 多 两 个 级 别 。 

动态 分 配 CPU 是 基于 虚拟 机 的 利用 效率 和 应 用 程序 级 的 服务 质量 指标 。 一 种 方法 是 考虑 
CPU 和 内 存 的 流动 并 基于 托管 服务 负载 的 变化 自动 调整 资源 开销 。 另 一 种 方法 是 使 用 两 级 资源 
管理 系统 来 处 理 引 和 人 的 复杂 性 : 一 个 处 于 虚拟 机 级 别 的 本 地 控制 器 和 一 个 处 于 服务 器 级 别 的 全 
局 控制 器 。 它 们 通过 本 地 控制 器 和 全 局 控制 器 的 交互 实现 自主 资源 分 配 。 多 核 和 虚拟 化 是 两 个 
可 以 互相 增强 的 尖端 技术 。 

然而 ，CMP 的 使 用 还 远 未 被 优化 。CMP 的 内 存 系统 是 一 个 典型 例子 。 在 数据 中 心中 ,我 们 
可 以 在 CMP 上 设计 一 个 虚拟 的 层次 结构 。 可 以 考虑 能 最 小 化 内 存 访 问 时 间 和 虚拟 机 之 间 干 扰 的 
协议 ， 便 于 虚拟 机 的 重新 分 配 并 支持 虚拟 机 间 的 共享 。 也 可 以 考虑 虚拟 机 可 感知 的 能 耗 预 算 机 
制 ， 该 机 制 通过 集成 多 个 管理 器 来 获得 更 好 的 能 耗 管理 。 功 耗 预 算 策略 不 能 忽略 异 构 问 题 。 因 
此 ， 必 须 在 节能 和 数据 中 心性 能 之 间 进 行 合理 权衡 。 170 
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3.5.2 虚拟 存储 管理 

在 系统 虚拟 化 技术 复兴 之 前 ， 术 语 “ 存 储 虚 拟 化 ”就 已 被 广泛 使 用 。 然 而 ， 该 词 在 系统 
虚拟 化 环境 中 具有 不 同 的 含义 。 以 前 ， 存 储 虚 拟 化 用 于 物理 机 器 领域 ， 被 大 量 用 于 描述 在 很 
粗 的 粒度 上 聚集 和 重新 划分 磁盘 。 在 系统 虚拟 化 中 ， 虚 拟 存储 包括 由 VMM 和 客户 操作 系统 管 
理 的 存储 。 通 常 来 讲 ， 存 储 在 该 环境 中 的 数据 可 被 分 为 两 类 ; 虚拟 机 镜像 和 应 用 程序 数据 。 
虚拟 机 镜像 是 虚拟 机 环境 中 的 特殊 产品 ， 而 应 用 程序 数据 及 所 有 其 他 数据 则 与 传统 操作 系统 
中 的 数据 相同 。 

系统 虚拟 化 最 重要 的 方面 是 封装 和 隔离 。 传 统 操作 系统 和 运行 其 上 的 应 用 程序 可 被 封装 到 
虚拟 机 之 中 。 在 一 个 虚拟 机 中 仅 运行 一 个 操作 系统 ， 而 该 操作 系统 中 则 可 运行 许多 应 用 程序 。 系 
统 虚 拟 化 允许 多 虚拟 机 同时 运行 在 一 个 物理 机 器 上 并 且 虚 拟 机 之 间 完 全 隔离 。 为 达到 封装 和 隔 
离 ， 系 统 软件 和 硬件 平台 (例如 CPU MER) 被 迅速 更 新 ， 然 而 ， 存 储 则 相对 缓慢 。 存 储 系统 
RAR S ie OLA ES ae, 

在 虚拟 化 环境 中 ， 在 硬件 和 传统 操作 系统 之 间 插 入 一 层 虚拟 化 ， 或 修改 传统 操作 系统 来 支 
持 虚 拟 化 。 该 过 程 使 得 存储 操作 变 得 复杂 起 来 。 一 方面 ， 尽 管 与 在 真实 的 硬件 磁盘 之 上 进行 客户 
操作 系统 的 存储 管理 操作 一 样 ， 但 客户 操作 系统 又 不 能 直接 访问 硬件 磁盘 。 另 一 方面 ， 当 许多 虚 
拟 机 运行 在 一 台 物 理 机 器 之 上 时 ， 许 多 客户 操作 系统 竞争 硬件 磁盘 。 因 此 ， 与 客户 操作 系统 或 传 
统 操 作 系 统 的 存储 管理 相 比 ，VMM 的 存储 管理 更 为 复杂 。 

除 此 之 外 ， 虚 拟 机 使 用 的 存储 原 语 不 够 灵活 。 因 此 ， 主 机 之 间 重 映射 卷 和 为 磁盘 设置 检查 点 
等 操作 笨拙 难 懂 ， 甚 至 有 时 不 可 用 。 在 数据 中 心中 ,通常 有 上 千 虚 拟 机 ， 这 就 导致 虚拟 机 镜像 的 
泛滥 。 许 多 研究 者 试图 在 虚拟 存储 管理 中 解决 该 问题 。 他 们 研究 的 主要 目的 是 简化 管理 并 改进 
性 能 、 降 低 虚 拟 机 镜像 占据 的 存储 空间 。Parallax 是 一 个 专 为 虚拟 化 环境 定制 的 分 布 式 存储 系统 。 
内 容 寻 址 存储 (Content Addressable Storage, CAS) 是 降低 虚拟 机 存储 镜像 规模 的 一 种 方法 ， 可 
以 在 数据 中 心中 支持 大 量 基于 虚拟 机 的 系统 。 

由 于 传统 存储 管理 技术 不 考虑 虚拟 化 环境 中 的 存储 特征 ，Parallax 设计 了 一 种 新 的 体系 结构 ， 
其 中 常用 于 高 端 存 储 阵 列 和 交换 机 的 存储 特征 被 重用 到 存储 虚拟 机 阵营 之 中 。 这 些 存储 虚拟 机 
与 虚拟 机 一 样 共享 相同 的 物理 主机 。 图 3-26 展示 了 Parallax 的 系统 体系 结构 示意 图 。 它 支持 所 有 
主流 的 系统 虚拟 化 技术 ， 如 半 虚 拟 化 和 全 虚拟 化 。 对 每 台 物 理 机 器 来 讲 ，Parallax 定制 一 个 特殊 
的 存储 装置 虚拟 机 。 该 存储 装置 虚拟 机 作为 处 于 各 个 虚拟 机 和 物理 存储 设备 之 间 的 块 虚拟 化 层 。 
它 为 同一 台 物 理 机 器 之 上 的 每 个 虚拟 机 提供 一 个 虚拟 磁盘 。 

例 3. 11 用 于 虚拟 机 存储 管理 的 Parallax 系统 

Parallax 的 体系 结构 是 可 扩展 的 ， 尤 其 适用 于 集群 环境 。 图 3-26 展示 了 一 个 基于 Parallax 的 
集群 的 结构 示意 图 。 一 个 集群 级 的 管理 域 管理 所 有 的 存储 装置 虚拟 机 。 存 储 装 置 虚拟 机 可 以 使 
存储 管理 变 得 更 加 容易 ， 人 允许 当前 实现 在 数据 中 心中 的 功能 被 拿 出 来 并 实现 在 单个 主机 上 ， 使 
得 高 级 存储 特征 〔 如 快照 工具 ) 便于 在 软件 层 实现 并 实现 了 商业 网 络 存 储 的 目标 。 

Parallax 本 身 作为 一 个 用 户 级 应 用 程序 运行 在 存储 装置 虚拟 机 中 。Parallax 为 虚拟 机 提供 康 拟 
磁盘 镜像 (Virtual Disk Image，VDI) 。 一 个 VDI 是 一 个 单一 写 者 的 虚拟 磁盘 ， 在 Parallax 的 集群 
中 ， 可 以 用 位 置 透明 的 方式 从 任何 物理 主机 对 其 进行 访问 。 这 些 VDI 是 由 Parallax 提供 的 核心 抽 
象 。Parallax 使 用 Xen 的 块 处 理 驱 动 器 来 处 理 块 请 求 并 被 实现 为 一 个 特殊 磁盘 库 。 该 库 作为 一 个 
单一 的 块 虚拟 化 服务 为 处 于 相同 物理 主机 上 的 所 有 客户 虚拟 机 提供 服务 。 该 实现 使 得 存储 管理 
者 可 在 一 个 活跃 的 集群 中 在 线 更 新 块 设备 驱动 。 | 
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和 存储 管理 域 | | 
， 存储 功能 ( 如 快照 工具 ) 通常 在 存储 设备 pete | 
中 实现 ， 但 在 这 里 却 被 放 到 每 个 主机 的 存 一 
储 装置 虚拟 机 中 ， 它 与 一 个 简单 的 共享 志 
设备 交互 ， 并 且 也 可 能 使 用 本 地 物理 磁盘 


共享 的 块 设备 


可 能 被 使 用 的 任何 网 络 块 设 
备 : FC, iSCSI, AoE, GNBD, 
基于 NFS 的 文件 和 Petal 等 





图 3-26 Parallax 是 一 组 基于 每 个 主机 的 存储 装置 ， 它 们 共享 访问 一 个 公共 的 块 设备 ， 并 为 客户 虚 
拟 机 提供 虚拟 磁盘 
注 ; 由 D. Meyer 等 人 [4] 提 供 。 


3.5.3 虚拟 化 数据 中 心 的 云 操作 系统 

数据 中 心 作 为 云 提供 商 必须 被 虚拟 化 。 表 3-6 总 结 了 4 个 虚拟 基础 设施 ( Virtual 
Infrastructure , VI) 管理 器 和 操作 系统 。 这 些 VI 管理 器 和 操作 系统 经 特殊 剪裁 后 用 于 集群 中 具 
有 大 量 服务 器 的 虚拟 化 数据 中 心 。Nimbus、Eucalyptus 和 OpenNebula 都 是 对 所 有 公众 开放 的 开源 
软件 ， 只 有 vSphere 4 是 商业 操作 系统 ， 它 用 于 数据 中 心中 云 资源 的 虚拟 化 和 管理 。 

这 些 VI 管理 器 被 用 于 创建 虚拟 机 并 将 新 创建 的 虚拟 机 计 人 虚拟 集群 的 弹性 资源 中 。Nimbus 
和 Eucalyptus 本 质 上 支持 虚拟 网 络 OpenNebula 还 可 以 动态 分 配 资源 和 提前 预定 资源 。 三 个 公有 
的 VI 管理 器 使 用 Xen Al KVM 为 虚拟 化 平台 ，vSphere 4 则 使 用 VMware 公司 的 ESX 和 ESXi 作为 
虚拟 化 平台 。 只 有 vSphere 4 支持 虚拟 存储 及 虚拟 网 络 和 数据 保护 。 接 下 来 的 两 个 例子 我 们 将 学 
习 Eucalyptus 和 vSphere4 , 


He 3-6 VI 管理 器 和 用 于 虚拟 化 数据 中 心 的 操作 系统 
被 虚拟 化 的 资源 ， FAW API, 













管理 器 /操作 系统 、 
































































平台 、 授 权 许 可 网 络 链接 语言 hypervisor 特征 
Nimbus 虚拟 机 的 创建 虚拟 集群 EC2 WS, 虚拟 网 络 
Linux, Apache v2 | www. nimbusproject. org/ WSRF, CLI 

Eucalyptus 虚拟 网 络 ( 例 3.12 和 文献 EC2 WS, 

Linux, BSD [41 ] ) www. eucalyptus. com/ CLI Ken, PM 虚拟 网 络 
OpenNebula 虚拟 机 的 管理 、 主 机 、 虚 拟 网 络 XML-RPC, | ven. KYM 虚拟 网 络 ， 
Linux, Apache v2 | 和 调度 工具 www. opennebula org/ CLI, Java 动态 提供 资源 
vShere/4 数据 中 心 的 虚拟 操作 系统 〔 例 cu. cur. | i 数据 保护 ， 
Linux, Windows, | 3.13) www. vmware. com/products Portal á ws , E a eae vStorage, VMFS, 
商业 /vsphere/ [66] ai soos DRM, HA 
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例 3.12 用 于 私有 云 的 虚拟 网 络 的 Eucalyptus 

Eucalyptus 是 一 个 主要 为 了 支持 IaaS (Infrastructure as a Service) 云 的 开源 软件 系统 ， 如 
图 3-27 所 示 。Eucalyptus 主要 支持 虚拟 网 络 和 虚拟 机 的 管理 ， 不 支持 虚拟 存储 。 其 目的 是 构造 私 
有 云 ， 能 通过 以 太 网 或 互联 网 与 终端 用 户 交互 ， 也 支持 通过 互联 网 与 其 他 私有 云 或 公有 云 交互 ; 
但 Eucalyptus 缺乏 安全 性 及 其 他 通用 网 格 或 云 应 用 期 望 的 特征 。 

Eucalyptus”) 的 设计 者 将 每 个 高 层 系 统 组 件 实现 为 一 个 独立 的 Web 服务 。 每 个 Web 服务 暴 
露 一 个 定义 和 良好 的 语言 无 关 的 API， 该 API 使 用 WSDL 文档 的 形式 ， 其 中 包含 服务 可 进行 的 操作 

及 输入 、 输 出 数据 结构 。 进 一 步 地 ， 设 计 者 利用 存在 的 Web 服务 特征 (如 Web 服务 安全 策略 ) 
来 进行 组 件 之 间 的 安全 通信 。 图 3-27 所 示 的 三 个 资源 管理 器 具体 描述 如 下 : 
e 实例 管理 器 : 控制 主机 上 虚拟 机 实例 的 执行 、 监 督 和 终止 。 
。 组 管理 器 : 收集 虚拟 机 信息 ， 并 调度 虚拟 机 使 其 在 合适 的 实例 管理 器 上 运行 ， 并 管理 虚 
拟 实例 网 络 。 

. 云 管理 器 : 是 用 户 和 管理 员 进 入 云 的 入 口 点 。 它 向 节点 管理 器 请 求 资 源 信息 ， 并 基于 此 

进行 调度 决策 ， 最 后 向 组 管理 器 发 出 命令 执行 决策 。 

在 功能 方面 ，Eucalyptus 与 亚马逊 Web 服务 (Amazon Web Services, AWS) 提供 的 API 类 似 ， 
因此 ， 它 可 以 与 EC2 直接 交互 。Eucalyptus 确实 提供 了 一 个 模拟 亚马逊 S3 API 的 存储 API 来 存储 
用 户 数 据 和 虚拟 机 镜像 。Eucalyptus 安装 在 基于 Linx 的 平台 上 ， 与 带 有 SOAP 和 Query 接口 的 
EC2 兼容 ， 并 与 带 有 SOAP 和 REST 接口 的 S3 兼容 。Eucalyptus 具有 命令 行 接口 (Command Line 
Interface, CLI) 和 网 站 门户 两 种 接 入 方式 。 a 

















集群 A 集群 B 


图 3-27 构建 私有 云 的 Eucalyptus 系统 ， 通 过 以 太 网 和 互联 网 建立 虚拟 机 链接 之 上 的 虚拟 网 络 
iż; w D. Numi 等 人 [45] 提供。 


例 3. 13 商业 化 云 操作 系统 一 一 VMware vSphere4 ©! 
2009 年 4 月 发 布 的 vSphere 4 为 VMware 开发 的 硬件 和 软件 提供 了 一 个 生态 系统 。vSphere 扩 
KEY VMware 早期 的 虚拟 化 软件 产品 ， 分 别 为 VMware Workstation、 用 于 服务 器 虚拟 化 的 ESX 和 
用 于 服务 器 集群 的 VI。 图 3-28 展示 了 vSphere 的 整体 体系 结构 ， 系 统 与 用 户 应 用 程序 通过 一 个 称 
为 vCenter 的 接口 层 交 互 。vSphere 主要 为 构造 私有 云 提供 虚拟 化 支持 和 数据 中 心 的 资源 管理 。 
VMware 声称 vSphere 是 第 一 个 云 操作 系统 ， 在 提供 云 计算 服务 时 具有 可 用 性 、 安 全 性 和 可 扩展 性 。 
vSphere 4 由 两 个 功能 软件 包 构 成 : 基础 设施 服务 和 应 用 程序 服务 。 它 也 有 三 个 主要 用 于 虚 
拟 化 的 组 件 包 : 由 VMware 的 ESX, ESXi 和 DRS 虚拟 化 库 支 持 的 vCompute; 由 VMS 和 精简 配置 
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(thin provisioning) 库 支 持 的 vStorage; 提供 分 布 式 切换 和 网 络 函 数 的 vNetwork。 这 三 个 组 件 包 与 
数据 中 心中 的 硬件 服务 器 、 磁 盘 和 网 络 交互 ， 这 些 基 础 设施 函数 也 与 其 他 外 部 云 通 信 。 

应 用 程序 服务 也 分 为 三 部 分 : 可 用 性 、 安 全 性 和 可 扩展 性 。 可 用 性 支持 包括 来 自 VMware 的 
vMotion、 存 储 vMotion、 高 可 用 性 、 容 错 、 数 据 恢 复 ; 安全 性 支持 包括 虚拟 防火 墙 〈vShield 
Zones) 和 VMsafe。 可 扩展 性 包 由 DRS (Distributed Resource Scheduler， 分 布 式 资源 调度 器 ) FR 
添加 (Hot Add) 构成 。 感 兴趣 的 读者 可 以 参考 vSphere 4 网 站 来 了 解 这 些 软件 功能 组 件 的 详细 信 
息 。 为 全 面 了 解 vSphere 4 的 用 法 ， 用 户 必须 学 习 如 何 使 用 vCenter 接口 来 与 存在 的 应 用 程序 连接 
或 开发 新 的 应 用 。 a 


Tom So eee eee ee ee ee 









虚拟 防火 墙 
VMSafe 


应 用 服务 


VMFS | 分 布 式 切换 | 
精简 配置 





图 3-28 vSphere/4, 一 个 管理 虚拟 化 数据 中 心中 计算 、 存 储 和 网 络 资源 的 云 操作 系统 
iE: 由 VMware[72] 提供 ，2010 #4 A, 


3.5.4 虚拟 化 数据 中 心 的 可 信 管理 

VMM 的 出 现 改 变 了 计算 机 体系 结构 。 它 在 操作 系统 和 系统 硬件 之 间 插 入 一 层 软 件 ， 可 以 在 
一 个 物理 硬件 平台 上 创建 一 个 或 多 个 虚拟 机 。 虚 拟 机 具有 良好 的 封装 性 ， 运 行 在 虚拟 机 中 的 客 
户 操作 系统 的 状态 可 以 被 完全 封装 起 来 。 被 封装 的 机 器 状态 可 以 复制 ， 也 可 以 在 网 络 上 共享 ， 或 
像 文 件 一 样 移 除 ， 这 对 虚拟 机 的 安全 性 提出 了 挑战 。 通 常 来 讲 ，VMM 可 提供 安全 隔离 性 ， 虚 拟 
机 访问 任何 硬件 资源 时 都 需要 通过 VMM 的 审核 ， 因 此 VMM 是 一 个 虚拟 系统 的 安全 基础 。 一 般 
地 ， 一 个 虚拟 机 会 被 用 作 具 有 特权 的 管理 虚拟 机 ， 可 以 进行 创建 、 挂 起 、 恢 复 或 删除 虚拟 机 等 
操作 。 

”一 旦 黑客 成 功 地 进入 了 VMM 或 管理 虚拟 机 ， 整 个 系统 就 进入 了 危险 状态 。 一 个 微妙 的 问题 
会 出 现在 那些 依赖 随机 数 的 新 鲜 性 来 产生 会 话 密 钥 的 协议 中 。 就 一 个 虚拟 机 而 言 ， 可 以 将 其 回 
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滚 到 某 个 点 ， 在 该 点 上 ， 一 个 随机 数 已 被 选择 ， 但 还 未 被 使 用 ， 然 后 ， 恢 复 虚 拟 机 的 执行 。 为 安 
全 起 见 ， 随 机 数 必须 是 新 的 ， 但 在 这 里 随机 数 却 被 重用 了 。 在 这 种 情况 下 ， 对 一 个 流 密码 来 讲 ， 
两 段 不 同 的 明文 可 以 在 相同 的 密 钥 流下 进行 加 密 。 若 这 两 段 明 文 含 有 足够 的 宛 余 信 息 ， 则 会 进 
一 步 暴露 这 两 段 明文 的 信息 。 依 赖 于 新 颖 度 的 非 加 密 协 议 也 存在 风险 ， 如 重用 TCP 的 初始 序号 
会 引起 TCP 支持 攻击 。 

基于 虚拟 机 的 入 侵 检 测 

人 侵 是 指 本 地 或 网 络 用 户 对 计算 机 系统 的 非法 访问 ， 入 侵 检测 则 被 用 来 识别 非法 访问 。 入 
侵 检测 系统 (Intrusion Detection System, IDS) 是 基于 入 侵 动作 特征 ， 构 建 在 操作 系统 之 上 。 根 
据 数据 的 来 源 ， 一 个 典型 的 IDS 系统 可 以 分 为 基于 主机 的 IDS (HIDS) 和 基于 网 络 的 IDS 
(NIDS) 。HIDS 可 以 在 被 监视 系统 上 实现 ， 当 被 监视 系统 受到 黑客 攻击 时 ，HIDS 也 会 面临 被 攻 
击 的 风险 。NIDS 则 基于 网 络 流量 ， 无 法 探测 到 伪装 的 动作 。 

基于 虚拟 化 的 人 侵 检 测 可 以 将 同一 个 硬件 平台 上 的 客户 虚拟 机 进行 隔离 。 尽 管 一 些 虚拟 机 
可 能 被 成 功 人 侵 , 但 其 他 虚拟 机 并 不 会 受到 影响 ， 这 与 NIDS 的 操作 方式 类 似 。 进 一 步 地 ，VMM 
监视 并 审核 对 硬件 和 系统 软件 的 访问 请 求 ， 这 可 防止 伪装 动作 并 具有 HIDS 的 优点 。 实 现 基于 虚 
拟 机 的 IDS 有 两 种 不 同 的 方法 : IDS 作为 一 个 独立 进程 ， 存 在 于 每 个 虚拟 机 中 或 只 存在 于 VMM 
上 的 特权 虚拟 机 中 ; 或 者 将 IDS 整合 进 VMM 之 中 ， 与 VMM 具有 相同 的 硬件 访问 权限 。Garfinkel 
和 Rosenblum!" 提出 了 一 个 IDS， 他 们 将 IDS 作为 一 个 高 特权 虚拟 机 运行 在 VMM 上 ， 如 图 3-29 
所 示 。 


客户 操作 系统 | 





























图 3-29 使 用 专用 虚拟 机 进行 人 侵 检测 的 生命 元 件 (livewire) 体系 结构 
32: 由 Garfinkel 和 Rosenblum!'7! 344, 2002, 


基于 虚拟 机 的 IDS 包括 一 个 策略 引擎 和 一 个 策略 模块 。 策 略 框架 可 以 通过 操作 系统 接口 库 监 
视 不 同 客户 虚拟 机 中 的 事件 ，PTrace 指示 被 监视 主机 安全 策略 的 踪迹 。 事 实 上 ， 很 难 无 延迟 地 预 
测 和 阻止 所 有 入 侵 。 因此， 在 入 侵 发 生 后 ， 对 入 侵 动作 的 分 析 极 其 重要 。 目 前 ， 大 部 分 计算 机 系 
统 使 用 日 志 分 析 攻 击 ， 但 很 难 确保 日 志 的 可 信和 度 和 完整 性 。IDS 日 志 服务 基于 操作 系统 内 核 ， 因 
此 ， 当 操作 系统 被 黑客 攻击 时 ， 日 志 服务 应 不 受 影响 。 

除了 IDS 外 ， 蜜 铅 和 蜜 网 也 是 当前 人 侵 检测 的 流行 技术 。 为 保护 真实 系统 免 受 攻击 ， 蜜 钠 和 
蜜 网 给 攻击 者 提供 伪造 系统 来 转移 攻击 者 的 注意 力 。 除 此 之 外 ， 可 以 对 攻击 动作 进行 分 析 ， 构 建 
一 个 安全 的 IDS。 蜜 钠 是 一 个 存在 故意 漏洞 的 系统 ， 可 以 模拟 操作 系统 欺骗 和 监视 攻击 者 的 动 
作 。 蜜 钠 可 被 分 为 物理 和 虚拟 两 种 形式 。 一 个 客户 操作 系统 和 运行 在 其 中 的 应 用 程序 构成 一 个 
虚拟 机 ， 必 须 保证 主机 操作 系统 和 VMM 免 受 来 自 虚拟 蜜 饶 中 虚拟 机 的 攻击 。 
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例 3. 14 EMC 建立 信任 区 来 保护 提供 给 多 租户 的 虚拟 集群 

EMC 和 VMware 已 确立 合作 关系 来 为 分 布 式 系统 和 私有 云 中 的 信任 管理 构筑 安全 中 间 件 。 信 
任 区 是 虚拟 基础 设施 的 一 部 分 。 图 3-30 展示 了 为 在 独立 虚拟 环境 中 提供 的 虚拟 集群 (每 个 租户 [177 
的 多 个 应 用 程序 和 操作 系统 ) 建立 信任 区 的 概念 。 物 理 基础 设施 如 图 中 底部 所 示 ， 标 注 为 云 提 
供 商 ; 由 两 个 租户 构成 的 虚拟 集群 或 基础 设施 如 框 中 上 部 所 示 ; 公有 云 与 全 球 用 户 社区 相关 联 ， 
如 图 中 顶部 所 示 。 






图 3-30 ”为 独立 虚拟 集群 和 虚拟 机 隔离 建立 信任 区 的 技术 

32; W EMC 的 L Nick'491 提 供 。 

左边 的 箭头 框 和 箭头 与 分 区 框 之 闻 的 简要 描述 是 安全 函数 和 发 生 在 4 个 级 别 的 从 用 户 到 提供 
商 的 动作 。4 个 框 之 间 的 小 圈 指 用 户 和 提供 商 以 及 用 户 和 用 户 之 间 的 交互 。 右 边 的 稍 头 框 是 用 于 
租户 环境 、 提 供 商 和 全 球 社区 之 间 的 函数 和 动作 。 

这 里 使 用 了 几乎 所 有 可 用 的 对 策 ， 例 如 反 病 毒 、 早 虫 抑制 、 入 侵 检 测 及 加 密 与 解密 机 制 等 来 
隔 离 信任 区 ， 并 为 私有 租户 咀 离 其 虚拟 机 。 这 里 的 主要 创新 点 是 建立 虚拟 集群 之 间 的 信任 区 。 最 
后 的 结果 是 形成 一 个 安全 事件 和 指派 给 不 同 租户 的 虚拟 集群 之 间 相 容 性 的 端 到 端 视 图 。 在 详细 
学 习 云 之 后 ， 第 7 章 将 会 讨论 安全 和 信任 问题 。 


3.6 参考 文献 与 习题 


关于 虚拟 化 技术 的 总 结 回顾 可 人 参见 Rosenblum 4% A! §5 Smith 和 Nair!®®! 的 文献 。VMware 
公司 的 虚拟 化 产品 白皮书 "1 介绍 了 vSphere 4 云 操作 系统 。Xen hypervisor 在 文献 [7，13，42 ] 
中 有 相关 介绍 ，KVM 在 文献 [31] 中 有 相关 介绍 。Qian 等 人 '?1 讨 论 了 一 些 虚拟 化 的 理论 问题 。 
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ISA 级 虚拟 化 和 二 进 制 翻译 技术 在 文献 [3] 和 文献 [58] 有 所 提 及 。 虚 拟 化 软件 环境 的 比较 可 参见 
Buyya 等 人 "的 文献 。 硬 件 级 虚拟 化 在 文献 [1，7，8，13，37，43，54 ，67] 中 进行 了 讨论 。Intel 
的 硬件 级 虚拟 化 支持 见 文献 [62] 。 表 3-5 中 的 一 些 项 摘自 Buyya 等 人 "的 文章 。 

对 虚拟 机 之 上 的 GPU 计算 ， 读 者 可 参见 文献 [57] x86 主机 虚拟 化 见 文 献 [2 ] Pentium 的 
虚拟 化 见 文 献 [53] ，L/O 虚拟 化 见 文献 [11，24，26，5$2 ] 。 

Sun 公司 关于 操作 系统 级 虚拟 化 的 报告 见 文献 [64] OpenVz BREA Pe, KF 
Windows NT 机 器 的 虚拟 化 参见 文献 [77，78] 。 对 虚拟 机 之 上 的 GPU 计算 , 读者 可 参见 文献 
[53], x86 主机 虚拟 化 见 文献 [2] Pentium 的 虚拟 化 见 文献 [53] 。 文 献 [24 ] 较 为 全 面 地 涵盖 了 
虚拟 化 的 硬件 相关 支持 。 虚 拟 集 群 见 文献 [8，12，20,25，49，55，56] ， 其 中 ， 杜 克 大 学 的 
COD 在 文献 [12] 中 有 介绍 ， 普 度 大 学 的 Violin 在 文献 [25，55 ] 中 有 介绍 。 内 存 虚拟 化 见 文献 [1， 
10, 13, 51, 58, 68], 

硬件 虚拟 化 见 文献 [1，7，8，13，41，47，58，73 ] Intel 对 硬件 虚拟 化 的 支持 见 文献 
[68], Wells 等 人 "研究 了 多 核 虚 拟 化 。 未 来 在 CPU 或 CPU 芯片 上 集成 多 核 和 虚拟 化 是 一 个 很 
热门 的 研究 领域 ， 叫 做 非 对 称 多 处 理 器 [ss 昌 反 7 。 对 虚拟 芯片 多 核 处 理 器 的 体系 结构 支持 也 在 
文献 [17，28，30，39，66] 中 进行 了 研究 。 协 同 设计 的 多 核 处 理 器 的 成 熟 将 会 大 大 影响 未 来 
HPC 和 HTC 系统 的 开发 。 

虚拟 化 数据 中 心中 ， 服 务 器 合并 问题 在 文献 [29，39，75] 中 进行 了 讨论 ， 能 耗 问题 在 文献 
[44，46] 中 进行 了 讨论 。 文献 [46，60，61，62] 讨 论 了 数据 中 心 的 虚拟 资源 管理 问题 。Kochut 
给 出 了 一 个 虚拟 化 数据 中 心 的 分 析 模 型 屏 ] 。 虚 拟 化 数据 中 心 的 安全 保护 和 可 信 管 理 见 文献 [18， 
45] 。 关 于 虚拟 存储 ， 读 者 可 参见 文献 [27，36，43 ，48，76，79] 。 这 些 例 子 的 具体 参考 文献 在 
图 标题 及 例子 的 文字 描述 中 进行 了 标记 。 文献 [45] 描述 了 Eucalyptus 系统 ， 文 献 [72] 描述 了 
vSphere 系统 。 文 献 [43] 描 述 了 Parallax 系统 。 文 献 [57] 描 述 了 用 于 虚拟 机 CUDA 编程 的 vCUDA 
系统 。 
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习题 


3. 


3. 
3. 


w 


1 简要 回答 下 面 关 于 虚拟 化 级 别 的 问题 ， 高 亮 关 键 点 并 识别 不 同方 法 的 差别 。 讨 论 它们 的 相对 优点 、 缺 
点 和 限制 ， 并 给 出 在 各 级 实现 虚拟 化 的 示例 系统 。 

2 解释 hypervisor 和 半 虚 拟 化 的 差别 ， 并 为 这 两 种 虚拟 化 类 型 分 别 给 出 示例 VMM, 

3 在 装 有 Windows XP 或 Vista 系统 的 个 人 计算 机 或 笔记 本 电脑 上 安装 VMware Workstation， 并 在 VMware 
Workstation 之 上 安装 Red Hat Linux 和 Windows XP。 为 Red Hat Linux 和 Windows XP 配置 网 络 使 之 可 以 
访问 互联 网 。 为 VMware Workstation, Red Hat Linux 和 Windows XP 系统 编写 安装 和 配置 手册 ， 其 中 包 
括 故障 提示 。 


.4 从 www. kernel. org/ 下 载 一 个 新 的 内 核 软件 包 。 在 如 下 两 个 Red Hat Linux 系统 上 分 别 对 之 进行 编译 : 运 


行 在 习题 3. 3 安装 的 VMware Workstation 之 中 的 Red Hat Linux 系统 和 运行 在 真实 计算 机 上 安装 的 Red 
Hat Linux 系统 。 比 较 两 次 编译 所 需 时 间 ， 哪 个 需要 的 时 间 更 长 ?它们 之 间 的 主要 不 同 是 什么 ? 


.5 使 用 两 种 不 同 的 方法 在 Red Hat Linux 系统 上 安装 Xen， 分 别 从 二 进 制 代码 或 从 源 代码 安装 ， 并 分 别 编 


写 安 装 指南 。 描 述 依赖 的 工具 和 软件 包 以 及 故障 提示 。 
6 在 习题 3. 5 安装 的 Xen 中 安装 Red Hat Linux, M www. tux . org/ ~ mayer/linux/bmark. html 下 载 nbench, 
分 别 在 使 用 Xen 的 虚拟 机 上 和 真实 机 器 上 运行 nbench， 比 较 这 两 种 平台 上 程序 的 性 能 表现 。 
使 用 在 虚拟 机 中 简化 谷歌 企业 应 用 程序 部 署 的 工具 。 谷 歌 的 虚拟 机 部 署 工 具 可 以 从 http://code. 
google. com/p/google-vm-deployment/ 下 载 。 


N 


.8 描述 在 Xen 域 之 间 交 换 数据 的 方法 ， 并 设计 实验 比较 域 之 间 的 数据 通信 性能。 为 了 回答 这 个 问题 ， 首 


先 需要 熟悉 Xen 的 编程 环境 ， 然 后 可 能 需要 更 长 时 间 来 移植 Xen 代码 、 实 现 应 用 程序 代码 、 进 行 实 
验 、 收 集 性 能 数据 并 解释 结果 。 





.9 使 用 VMware Workstation 构造 自己 的 局 域 网 。 局 域 网 的 拓扑 结构 如 图 3-31 所 示 。 要 求 机 器 A 安装 Red 
Hat Linux， 机 器 B 安装 Windows XP。 





192.168.203.2 192.168.204.2 
机 器 A LAN 1 路 由 器 LAN 2 机 器 了 
外 部 网 关 : 192.168.204.1 
内 部 网 关 : 192.168.203.1 


Æ 3-31 Hea aR HFE 


10 “学习 关于 非 对称 或 异 构 片 上 多 处 理 器 系统 的 相关 文献 [33，63 ，74] 。 写 一 篇 该 领域 的 综述 报告 ， 指 
出 关键 的 研究 问题 ， 回 顾 当 前 存在 的 开发 及 开放 的 研究 挑战 。 


.11 学 习 针 对 多 核 CMP 设计 和 应 用 的 片上 网 络 及 其 虚拟 化 的 相关 文献 [17，28 ，30，66] ， 并 完成 与 习 


题 3. 10 要 求 相 同 的 综述 报告 。 

12 ”通常 来 讲 ， 硬 件 和 软件 资源 的 部 署 复杂 且 耗 时 。 自 动 的 虚拟 机 部 署 可 以 显著 减少 初始 化 新 服务 或 按照 
用 户 需 求 重新 分 配 资源 所 需 的 时 间 。 访 问 如 下 站 点 获取 相关 信息 : http: //wiki. systemimager. org/ 
index. php/ Automating_Xen_VM_deployment_with_SystemImager， 并 报告 使 用 SystemImager 和 Xen- tools 
自动 部 署 的 经 验 。 


-13 设计 一 个 实验 来 分 析 Xen 在 线 迁 移 VO 读 密 集 型 应 用 的 性 能 。 性 能 指标 包括 预 复制 阶段 所 消耗 的 时 


间 、 停 机 时 间 、 拉 阶段 所 消耗 的 时 间 及 迁移 的 全 部 时 间 。 


“14 ”设计 一 个 实验 来 测试 Xen 在 线 迁 移 VO 写 密集 型 应 用 的 性 能 。 性 能 指标 包括 预 复制 阶段 所 消耗 的 时 


间 、 停 机 时 间 、 拉 阶段 所 消耗 的 时 间 及 迁移 的 全 部 时 间 。 并 与 习题 3. 13 的 结果 进行 比较 。 
15 ”基于 VMware 服务 器 设计 并 实现 一 个 用 于 网 格 计算 的 虚拟 机 执行 环境 。 该 执行 环境 应 该 使 得 网 格 用 户 
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和 资源 提供 商 能 使 用 对 基于 虚拟 机 的 方法 和 分 布 式 计算 一 致 的 服务 。 用 户 可 以 自 定义 执行 环境 ， 且 执 
行 环境 可 被 归档 、 复 制 、 共 享 ， 并 实例 化 多 个 和 运行 时 副本 。 

3.16 设计 一 个 大 规模 虚拟 集群 系统 。 该 问题 可 能 需要 三 个 学 生 共同 工作 一 个 学 期 。 假 设 用 户 可 以 一 次 创建 
多 个 虚拟 机 ， 用 户 也 能 同时 操作 和 配置 多 个 虚拟 机 。 公 共 软 件 〈 如 操作 系统 或 库 ) 被 预 安 装 为 模板 。 
这 些 模板 使 得 用 户 可 以 快速 创建 一 个 新 的 虚拟 执行 环境 。 最 后 ， 假 设 用 户 有 他 们 自己 的 配置 文件 ， 其 
中 存储 了 数据 块 的 标识 信息 。 

3.17 图 3-32 所 示 是 VIOLIN 为 虚拟 执行 环境 的 更 改进 行 自 适应 的 另 一 个 场景 。 在 两 个 集群 域 中 运行 了 4 个 
VIOLIN 应 用 。 跟 踪 VIOLIN 作业 执行 的 三 个 步骤 并 讨论 在 两 个 集群 域 中 在 线 迁 移 虚 拟 执 行 环境 后 资源 
利用 效率 获得 的 改进 。 把 自己 的 结果 与 引用 文献 中 的 结果 进行 比较 。 
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图 3-32 VIOLIN 虚拟 集群 化 实验 ， 其 中 2 个 集 域 中 运行 4 个 VIOLIN 的 自 适 应 场景 
iÈ: h P. Ruth SA!) 提供 。 
3.18 在 学 习 了 3.3.5 节 给 出 的 材料 ， 并 阅读 了 文献 [74] 和 文献 [39] 后 ， 回 答 如 下 两 个 问题 ， 
a 区 分 虚拟 核 和 物理 核 ， 并 讨论 Wells 的 文章 使 用 虚拟 化 多 核 处 理 器 更 新 资源 利用 效率 和 容错 性 的 映 
射 技 术 。 
b. 学 习 Marty 和 Hill 的 文章 中 给 出 的 缓存 一 致 性 协议 ， 并 讨论 未 来 在 众 核 CMP 上 实现 其 的 可 行 性 和 
优势 。 
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云 平 台 、 面 向 服 务 的 体系 结构 和 云 编程 





本 部 分 三 章 主 要 介绍 云 计 算 ， 包 括 laS (基础 设施 即 服务 ) PaaS (平台 即 服务 ) 和 SaaS 
(软件 即 服务 ) 应 用 的 不 同 云 平 台 。 我 们 描述 了 近 几 年 面向 服务 的 体系 结构 的 发 展 ， 并 且 介 绍 不 
同 云 计算 服务 的 并 行 和 分 布 式 计算 范式 及 其 软件 支持 、 语 言 工具 和 编程 环境 。 

第 4 章 构建 在 虚拟 化 数据 中 心 上 的 云 平台 体系 结构 

本 章 包 括 云 体系 结构 和 数据 中 心 设计 的 原则 和 关键 技术 。 我 们 从 数据 中 心 的 设计 和 管理 开 
始 ， 然 后 将 会 给 出 云 平台 的 设计 选择 ， 其 中 改 盖 了 基础 设施 云 ( 包 括 计算 云 、 存 储 云 和 应 用 云 ) 
的 层次 化 平台 设计 。 特 别 地 ， 我 们 研究 了 中 心 自 动 化 技术 和 交互 网 络 。 针 对 一 些 公有 云 平台 也 进 
行 了 研究 ， 包 括 谷 歌 的 应 用 程序 引擎 (CAE), LBB Web 服务 (AWS) 和 微软 的 Windows 
Azure。 同 时 还 讨论 了 云 安全 和 信任 管理 问题 。 

本 章 主 要 由 黄 铠 教授 撰写 ，Rajkumar Buyya 和 Kang Chen (WE) 也 参与 了 本 章 部 分 内 容 的 
撰写 。 最 终 稿 由 Geoffrey Fox 审 校 。 

第 5 章 面向 服务 的 分 布 式 体系 结构 

本 章 包括 了 网 格 系统 中 两 种 主要 的 分 布 式 服务 形式 : 表述 性 状态 转移 (Representational State 
Transfer，REST) 和 Web 服务 以 及 后 者 的 扩展 。 工 作 流 用 于 编排 或 整合 多 层 服务 ， 我 们 介绍 了 工作 
流 中 使 用 的 一 般 方 法 ，BPEL Web 服务 标准 包括 Pegasus, Taverna, Kepler, Trident 和 Swift。 我 们 介 
绍 了 两 个 例子 (OGCE 和 HUBzero) ， 它 们 使 用 了 Web 服务 (portlet) 和 Web 2.0 (gadget) 技术 。 

本 章 由 Geoffrey Fox 和 Albert Zomaya #3, Rajkumar Buyya 参与 了 部 分 工作 。Ali Javadzadeh 
Boloori、Chen Wang, Shrideep Pallickara、Marlon Pierce, Suresh Marru、Michael McLennan, George 
Adams, HI, Gerhard Klimeck 和 Michael Wilde 提供 了 技术 帮助 。 最 终 稿 由 黄 铠 教 接 审 校 。 


第 6 章 云 编程 和 软件 环境 

我 们 介绍 了 主要 的 云 编 程 范式 : MapReduce、BigTable、Twister、Dryad、DryadLINQ、 
Hadoop, Sawzall 和 Pig Latin 。 通 过 具体 的 云 例子 来 说 明 云 中 的 实现 和 应 用 要 求 。 我 们 回顾 了 核心 
服务 模型 和 访问 技术 。 通 过 应 用 实例 ， 说 明了 GAE, AWS 和 微软 Windows Azure 提供 的 云 服 务 。 
特别 地 ， 我 们 说 明了 如 何 编 程 GAE、AWS EC2、S3、EBS 等 。 本 章 回 顾 了 开源 Eucalyptus, 
Nimbus, A OpenNebula 和 启动 Manjrasoft Aneka 系统 。 

本 章 由 Geoffrey Fox 和 Albert Zomaya #5, Rajkumar Buyya (6.5.3 节 ) 和 Judy Qiu (6.2.6 $) 
参与 了 部 分 内 容 的 撰写 。Gregor von Laszewski, Javier Diaz, Archit Kulshrestha, Andrew Younge, Reza 
Moravaeji, Javid Teheri 和 Renato Figueiredo 提供 了 技术 帮助 。 最 终 稿 由 黄 铠 教授 审 校 。 
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构建 在 虚拟 化 数据 中 心 上 的 云 平台 体系 结构 





本 章 内 容 包 括 云 平台 的 设计 原则 、 体 系 结构 和 关键 技术 。 我 们 首先 讨论 数据 中 心 的 设计 和 
管理 ， 然 后 将 会 给 出 构建 计算 和 存储 云 平台 的 设计 选择 ， 其 中 覆盖 了 层次 化 平台 结构 、 虚 拟 化 支 
持 、 资 源 分 配 和 基础 设施 管理 。 我 们 对 一 些 公有 云 平 台 也 进行 了 研究 ， 包 括 亚马逊 的 Web 服务 
(Amazon Web Services) 、 谷 歌 的 应 用 程序 引擎 (Google App Engine) 和 微软 的 Azure。 后 续 章 节 将 
介绍 面向 服务 的 体系 结构 、 云 计算 范式 、 编 程 环 境 和 未 来 的 云 扩展 。 


4.1 云 计算 和 服务 模型 


在 过 去 的 20 年 中 ， 全 球 经 济 从 制造 型 工业 向 面向 服务 快速 转变 。 在 2010 E, 美国 经 济 的 
80% 由 服务 业 驱 动 ， 制 造 业 占 15% ， 农 业 及 其 他 领域 占 5% 。 云 计算 使 得 服务 业 受 益 最 多 ， 并 且 
将 商业 计算 推 向 了 一 种 新 的 范式 。2009 年 ， 全 球 云 服务 市 场 达 到 174 亿美 元 ; 2010 Æ, IDC H 
计 到 2013 年 时 ， 基 于 云 的 相关 经 济 可 能 会 增加 到 442 亿美 元 。 创 新 型 云 应 用 开发 者 前 期 不 再 需 
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要 大 的 经 济 投入 ， 他 们 只 需要 从 一 些 大 的 数据 中 心 租用 资源 即 可 满足 需求 。 

本 章 及 接 下 来 的 两 章 将 介绍 云 平台 体系 结构 、 服 务 模型 和 编程 环境 。 用 户 可 以 在 全 球 任 意 
位 置 以 极 具 竞争 力 的 成 本 访问 和 部 署 云 应 用 。 虚 拟 化 的 云 平台 常常 构建 在 大 规模 数据 中 心 之 上 。 
想到 这 一 点 ， 我 们 首先 介绍 数据 中 心中 服务 器 集群 及 其 互 连 问题 。 换 名 话说 ， 云 致力 于 通过 自动 
化 的 硬件 、 数 据 库 、 用 户 接口 和 应 用 程序 环境 把 它们 结构 化 为 虚拟 资源 ， 来 驱动 下 一 代 的 数据 中 
心 。 从 这 个 角度 来 看 ， 云 渴望 通过 自动 化 的 资源 配置 构建 更 好 的 数据 中 心 。 

4.1.1 公有 云 、 私 有 云 和 混合 云 

云 计算 的 概念 从 集群 、 网 格 和 效用 计算 发 展 而 来 。 集 群 和 网 格 计 算 并 行使 用 大 量 计算 机 可 
以 解决 任何 规模 的 问题 。 效 用 计算 和 SaaS (Software as a Service) 将 计算 资源 作为 服务 进行 按 需 
付费 。 云 计算 利用 动态 资源 为 终端 用 户 传递 大 量 服务 。 云 计算 是 一 种 高 吞吐 量 计算 范式 ， 它 通过 
大 的 数据 中 心 或 服务 器 群 提供 服务 。 云 计算 模型 使 得 用 户 可 以 随时 随地 通过 他 们 的 互 连 设 备 访 
问 共享 资源 。 

第 1 章 曾 提 到 ， 云 将 用 户 解 放 了 出 来 ， 使 他 们 可 以 专注 于 应 用 程序 的 开发 ， 并 通过 将 作业 外 
包 给 云 提供 商 创造 了 商业 价值 。 在 这 种 情况 下 ， 计 算 RR) 发送 给 数据 所 在 地 ， 而 不 是 像 传 
统 方法 一 样 将 数据 复制 给 数 百 万 的 台式 计算 机 。 云 计算 避免 了 大 量 的 数据 移动 ， 可 以 带 来 更 好 
的 网 络 带 宽 利 用 率 。 而 且 ， 机 器 虚拟 化 进一步 提高 了 资源 和 用 率 ， 增 加 了 应 用 程序 灵活 性 ， 降 低 
了 使 用 虚拟 化 数据 中 心 资源 的 总 体 成 本 。 

BH IT 公司 带 来 了 极 大 的 益处 ， 将 他 们 从 设置 服务 器 硬件 和 管理 系统 软件 等 低级 任务 中 解 
放出 来 。 云 计算 使 用 虚拟 化 平台 ， 通 过 按 需 动态 配置 硬件 、 软 件 和 数据 集 ， 将 弹性 资源 放 在 一 
起 ， 主 要 思想 是 使 用 数据 中 心中 的 服务 器 集群 和 大 规模 数据 库 ， 将 桌面 计算 移 向 基于 服务 的 平 
台 ， 利 用 其 对 提供 商 和 用 户 的 低 成 本 和 简单 性 。Jan Foster’ 指出 ， 云 计算 可 以 同时 服务 许多 蜡 
构 的 、 大 小 不 一 的 应 用 程序 ， 它 主要 通过 利用 多 任务 的 特性 来 获得 更 高 的 吞吐 量 。 





第 4 章 构建 在 虚拟 化 数据 中 心 上 的 云 平台 体系 结构 


4.1.1.1 集中 式 计算 与 分 布 式 计算 

一 部 分 人 认为 云 计算 是 处 于 数据 中 心 的 集中 式 计算 , 另 一 部 分 人 认为 云 计算 是 针对 数据 中 
心 资源 的 分 布 式 并 行 计算 的 实践 。 他 们 分 别 代 表 了 云 计算 的 两 个 不 同 的 观点 。 云 应 用 的 所 有 计 
算 任务 被 分 配 到 数据 中 心 的 服务 器 上 。 这 些 服务 器 主要 是 虚拟 集群 的 虚拟 机 ， 由 数据 中 心 资源 
产生 出 来 。 从 这 点 来 看 ， 云 平台 是 通过 虚拟 化 分 布 的 系统 。 

如 图 4-1 所 示 ， 公 有 云 和 私有 云 都 是 在 互联 网 上 开发 的 。 由 于 许多 云 由 商业 提供 商 或 企业 以 
分 布 式 的 方式 产生 ， 它 们 会 通过 网 络 互 连 来 达到 可 扩展 的 、 有 效 的 计算 服务 。 商 业 云 的 提供 商 
(如 亚马逊 、 谷 歌 和 微软 ) 都 在 不 同 地 区 创建 了 平台 ， 这 种 分 布 对 容错 、 降 低 响应 延迟 ， 甚 至 法 
律 因素 等 有 益 。 基 于 局 域 网 的 私有 云 可 以 连接 到 公有 云 ， 从 而 获得 额外 的 资源 。 然 而 ， 欧 洲 用 户 
在 美国 使 用 云 ， 其 用 户 感受 可 能 并 不 好 ， 反 之 亦 然 ， 除 非 在 两 个 用 户 团 体 之 间 开 发 广泛 的 服务 级 
协议 (Service-Level Agreements, SLA) 。 
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图 4-1 公有 云 、 私 有 云 和 混合 云 的 功能 性 体系 结构 及 2011 年 可 用 的 有 代表 性 去 的 连通 性 


4.1.1.2 AKE 

公有 云 构 建 在 互联 网 之 上 ， 任 何 已 付费 的 用 户 都 可 以 访问 。 公 有 云 属 于 服务 提供 商 ， 用 户 通 
过 订阅 即 可 访问 。 图 4-1 中 顶层 的 标注 框 显 示 了 典型 的 公有 云 的 体系 结构 。 目 前 ， 已 存在 一 些 公 
Az, 包括 GAE (谷歌 应 用 引擎 ) 、AWS (亚马逊 Web 服务 )、 微 软 Azure, IBM 蓝 云 和 
Salesforce. com 的 Force. com。 这 些 云 由 商业 提供 商 提供 公共 可 访问 的 远程 接口 ， 通 过 这 些 接 口 可 
以 在 它们 各 自 的 基础 设施 中 创建 和 管理 虚拟 机 实例 。 公 有 云 交 付 了 一 个 选 定 集合 的 商业 流程 。 
应 用 程序 和 基础 设施 服务 可 以 通过 一 种 灵活 的 、 按 次 使 用 付费 的 方式 提供 。 

4.1.1.3 私有 云 

私有 云 构建 在 局 域 网 内 部 ， 属 于 一 个 独立 的 组 织 。 因 此 ， 它 属于 客户 ， 由 客户 管理 ， 而 且 其 
可 访问 范围 限制 在 所 属 客户 及 其 合作 者 之 中 。 部 署 私 有 云 并 不 是 在 互联 网 之 上 通过 公共 可 访问 
的 接口 售卖 容量 。 私 有 云 为 本 地 用 户 提供 了 一 个 灵活 的 、 敏 捷 的 私有 云 基础 设施 ， 可 以 在 他 们 的 
管理 域 中 运行 服务 负载 。 私 有 云 可 以 实现 更 有 效 、 更 便利 的 云 服务 。 它 可 能 会 影响 云 的 标准 化 ， 
但 可 以 获得 更 大 的 可 定制 化 和 组 织 控 制 力 。 
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4.1.1.4 混合 云 

混合 云 由 公有 云 和 私有 云 共同 构成 ， 如 图 4-1 左下 角 所 示 。 通 过 用 外 部 公有 云 的 计算 能 力 补 
充 本 地 基础 设施 ， 私 有 云 也 能 支持 混合 云 模式 。 例 如 ，RC2 (Research Compute Cloud) # IBM 74 
造 的 一 个 私有 云 ， 它 连接 8 个 IBM 研究 中 心 的 计算 和 IT 资源 ， 这 些 研究 中 心 分 别 分 布 在 美国 、 
欧洲 和 亚洲 。 混 合 云 提 供 对 终端 、 合 作者 网 络 和 第 三 方 组 织 的 访问 。 总 之 ， 公 有 云 促 进 了 标准 
化 ,节约 了 资金 投入 ， 为 应 用 程序 提供 了 很 好 的 灵活 性 ; 私有 云 尝试 进行 定制 化 ， 可 以 提供 更 高 
的 有 效 性 、 弹 性 、 安 全 性 和 隐私 性 ; 混合 云 则 处 于 两 者 中 间 ， 在 资源 共享 方面 进行 了 折 中 。 

4.1.1.5 数据 中 心 网 络 结 构 

云 的 核心 是 服务 器 集群 (或 虚拟 机 集群 ) 。 集 群 节点 用 作 计 算 节 点 ， 少 量 的 控制 节点 用 于 管 
理 和 监视 云 活动 。 用 户 作 业 的 调度 需要 为 用 户 创建 的 虚拟 集群 分 配 任务 。 网 关节 点 从 外 部 提供 
服务 的 访问 点 ， 这 些 网 关节 点 也 可 以 用 于 整个 云 平台 的 安全 控制 。 在 物理 集群 和 传统 网 格 中 ， 用 
户 期 望 静态 的 资源 需求 。 设 计 出 的 云 应 该 能 处 理 波动 性 的 负载 ， 可 以 动态 地 按 需 请 求 资源 。 如 果 
合理 设计 和 管理 ， 私 有 云 能 满足 这 些 需 求 。 

数据 中 心 和 超级 计算 机 除了 基本 的 不 同 之 外 ， 也 有 一 些 相 似 性 。 我 们 在 第 2 章 讨 论 了 超级 计 
算 机 。 在 数据 中 心中 ， 伸 缩 性 是 一 个 基本 的 需求 。 数 据 中 心服 务 器 集群 通常 使 用 上 千 到 上 百 万 的 
服务 器 (节点) 构建 而 成 。 例 如 ， 微 软 在 美国 芝加哥 地 区 有 一 个 数据 中 心 ， 有 100 000 个 八 核 服 
务 器 ， 放 在 50 个 货柜 中 。 超 级 计算 机 会 使 用 一 个 独立 的 数据 群 ， 而 数据 中 心 则 使 用 服务 器 节点 
上 的 磁盘 ， 另 外 还 有 内 存 缓存 和 数据 库 。 

数据 中 心 和 超级 计算 机 在 网 络 需 求 方面 也 不 相同 ， 如 图 4-2 所 示 。 超 级 计算 机 使 用 客户 设计 
的 高 带宽 网 络 ， 如 胖 树 或 3D 环形 网 络 ( 见 第 2 章 ); 数据 中 心 网 络 主要 是 基于 IP 的 商业 网 络 ， 
例如 10 Gbps 的 以 太 网 ， 为 互联 网 访问 进行 了 专门 优化 。 图 4-2 显示 了 一 个 访问 互联 网 的 多 层 结 
构 。 服 务 器 机 架 处 于 底部 的 第 二 层 ， 它 们 通过 快速 交换 机 (S) 连接 。 数 据 中 心 使 用 许多 接 入 路 
由 器 (Access Router, AR) 和 边界 路 由 器 (Border Router, BR) 连接 到 第 三 层 的 互联 网 。 























of HE: 
第 三 层 边 界 路 由 器 
。AR= 第 三 层 接 人 路 由 器 
。S= 第 二 层 交 换 器 

° LB= 负 和 载 均衡 器 
。A= 服 务 器 机 架 





缩写 x 
* BR= 





一 个 两 层 域 


图 4-2 用 于 云 访问 互联 网 的 标准 数据 中 心 网 络 
注 ; 由 Dennis Gannon [26] 提供 ， 2010, 


私有 云 的 一 个 例子 是 美国 国家 航空 航天 局 (National Aeronautics and Space Administration, 
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NASA) 构建 的 私有 云 ， 用 于 研究 者 在 其 提供 的 远程 系统 上 运行 气象 模型 。 这 种 方式 可 以 节约 在 
本 地 站 点 投入 高 性 能 计算 机 器 所 花费 的 开销 。 而 且 ，NASA 可 以 在 其 数据 中 心 构建 复杂 的 天 气 模 
型 ， 在 成 本 方面 更 为 有 效 。 另 一 个 较 好 的 例子 是 为 欧洲 核 研究 委员 会 (European Council for 
Nuclear Research, CERN) 构建 的 云 。 这 是 一 个 非常 大 的 私有 云 ， 可 以 为 遍布 在 全 球 的 上 千 的 科 
学 家 分 发 数据 、 应 用 和 计算 资源 。 

这 些 云 模型 需要 不 同 级 别 的 性 能 、 数 据 保护 和 安全 要 求 。 在 这 种 情况 下 ,不同 的 SLA 可 用 
于 满足 不 同 的 提供 商 和 付费 用 户 。 云 计算 利用 了 许多 已 有 的 技术 ,例如 ， 网 格 计 算是 云 计算 的 主 
要 技术 ， 网 格 与 云 计算 在 资源 共享 方面 目标 相同 ， 都 希望 研究 设备 能 获得 更 好 的 资源 利用 率 。 网 格 
更 关注 于 存储 和 计算 资源 的 递送 ,而 云 计算 则 更 关注 使 用 抽象 的 服务 和 资源 获得 一 定 的 规模 效益 。 

4.1.1.6 云 开发 趋势 

尽管 2010 年 间 构 建 的 大 部 分 云 都 是 大 型 公有 云 ， 但 是 作者 认为 将 来 私有 云 的 发 展会 更 为 迅 
速 。 私 有 云 在 一 个 公司 或 组 织 内 ， 相 对 更 为 安全 和 可 信 。 一 旦 私有 云 成 熟 起 来 并 且 防 护 更 为 安全 
时 ， 可 以 将 其 开放 或 转换 为 公有 云 。 因 此 ， 公 有 云 和 私有 云 的 界限 在 来 来 会 变 得 越 来 越 模糊 。 这 
样 的 话 ， 未 来 非常 有 可 能 大 部 分 云天 然 上 就 是 混合 云 。 

例如 ， 一 个 E-mail 应 用 程序 可 以 运行 在 服务 接 人 节点 上 ， 并 为 外 部 用 户 提 供用 户 接口 ， 应 
用 程序 可 以 从 内 部 的 云 计算 服 务 中 (例如 E-mail 存储 服务 ) 获得 服务 。 同 时 ， 也 会 设计 一 些 服 
务 节 点 支持 云 计算 集群 的 相应 功能 ， 这 些 节 点 称 为 运行 时 支撑 服务 节点 。 例 如 ， 为 支持 特定 应 用 
可 能 会 发 布 锁定 服务 。 最 终 ， 可 能 会 有 一 些 独立 的 服务 节点 ， 这 些 节点 将 为 集群 中 的 其 他 节点 提 
供 独 立 的 服务 。 例 如 ， 一 个 新 的 服务 需要 服务 接 人 节点 上 的 地 理 信息 。 

使 用 成 本 效益 性 能 作为 云 的 核心 概念 ， 在 本 章 ， 除 非特 意 指 出 ， 我 们 将 会 考虑 公有 云 。 许 多 
可 执行 应 用 程序 代码 比 它们 所 处 理 的 Web 级 数据 集 更 小 。 云 计算 避免 了 执行 过 程 中 移动 大 量 数 
据 ， 降 低 了 所 消耗 的 网 络 流量 ， 网 络 带 宽 利 用 率 更 好 。 云 也 减轻 了 千 兆 级 的 IO 问题 。 云 性 能 及 
其 服务 质量 还 有 待 在 实际 生活 的 应 用 程序 中 进行 证 明 。 我 们 将 在 第 9 章 针 对 云 计 算 的 性 能 、 数 据 
保护 、 安 全 指标 、 服 务 可 用 性 、 容 错 性 和 操作 成 本 进行 建 模 。 
4.1.2 云 生 态 系 统 和 关键 技术 

云 计算 平台 与 传统 计算 平台 有 许多 不 同 ， 本 节 将 重点 讲述 它们 在 计算 模式 和 使 用 的 成 本 模 
型 方面 的 不 同 。 传 统计 算 模 型 如 下 图 左边 流程 所 示 ， 包 括 购买 硬件 、 获 取 必 需 的 系统 软件 、 安 装 
系统 、 测 试 配置 、 执 行 应 用 程序 代码 和 资源 管理 。 更 糟糕 的 是 ， 每 隔 18 个 月 需要 重复 一 次 这 样 
的 周期 ， 同 时 也 意味 着 购买 的 机 器 18 个 月 后 就 会 被 淘汰 废弃 。 

云 计算 模式 如 下 图 右边 流程 所 示 。 该 计算 模型 使 用 现 收 现 付 制 ， 无 需 提 前 购买 机 器 资源 ， 所 
有 硬件 和 软件 资源 由 云 提 供 商 出 租 ， 用 户 租 用 即 可 ， 就 用 户 而 言 无 需 投 入 资金 ， 只 在 执行 阶段 花 
费 一 些 资金 ， 成 本 可 以 得 到 大 大 降低 。IBM 的 专家 估计 云 计算 与 传统 计算 模式 相 比 ， 成 本 可 以 节 
约 80% ~95% 。 这 极 具 吸 引力 ， 尤 其 是 对 只 需要 有 限 的 计算 能 力 的 小 公司 而 言 ， 可 以 避免 每 隔 
几 年 购买 一 次 昂贵 的 机 器 或 服务 器 。 








| 经 典 计算 云 计算 | 
(每 隔 18 个 月 重复 一 次 如 下 周期 ) | “按照 提供 的 服务 现 收 现 付 ) 
购买 和 拥有 提交 
硬件 、 系 统 软 件 、 应 用 程序 满足 峰值 需求 | ----- 
安装 、 配 置 、 测 试 、 验 证 、 评 测 、 管 理 使 用 (大约 节约 总 成 本 的 80% ~95% ) 
使 用 (R) 
----- $- 按 实际 使 用 量 付费 
付费 $$$8$ (高 成 本 ) 基于 服务 质量 
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例如 ，IBM 估计 ， 到 2012 年 ， 全 球 云 服 务 市 场 包 括 组 件 、 基 础 设施 服务 和 商业 服务 ， 可 能 
达到 1260 亿美 元 。 互 联网 云 作 为 服务 工厂 建造 在 多 个 数据 中 心中 。 为 了 形式 化 上 述 的 云 计 算 模 
型 ， 我 们 需要 描述 云 的 成 本 模型 、 云 生态 系统 和 关键 技术 。 这 些 主题 可 以 帮助 读者 理解 云 计算 背 
后 的 动机 所 在 ， 为 云 计算 扫除 障碍 。 

4.1.2.1 云 设 计 目 标 

尽管 针对 使 用 数据 中 心 或 大 IT 公司 的 集中 式 计算 和 存储 服务 来 替换 桌面 计算 的 争论 一 直 存 
E, 但 是 云 计 算 组 织 在 关于 为 使 云 计算 被 广泛 接受 而 必须 执行 的 工作 方面 已 达成 共识 。 下 面 列 
举 了 云 计算 的 6 个 设计 目标 : 

将 计算 从 桌面 移 向 数据 中 心 ” 计 算 处 理 、 存 储 与 软件 发 布 从 桌面 和 本 地 服务 器 移 向 互联 
网 数据 中 心 。 

服务 配置 和 云 效 益 ”提供 商 供应 云 服务 时 必须 与 消费 者 和 终端 用 户 签署 服务 等 级 协议 
(SLA) 。 服 务 在 计算 、 存 储 和 功 耗 方面 必须 有 效 ， 定 价 基 于 按 需 付费 的 策略 。 

性 能 可 扩展 性 ” 云 平 台 、 软 件 和 基础 设施 服务 必须 能 够 根据 用 户 数 的 增长 而 相应 扩容 。 
数据 隐私 保护 ”能 否 信 任 数 据 中 心 处 理 个 人 数据 和 记录 呢 ?” 云 要 成 为 可 信服 务必 须 妥善 


解决 该 问题 。 
。 高 质量 的 云 服 务 ” 云 计算 的 服务 质量 必须 标准 化 ， 这 才能 使 得 云 可 以 在 多 个 提供 商 之 间 . 
进行 互 操 作 。 


新 标准 和 接口 ”主要 解决 与 数据 中 心 或 云 提供 商 相 关 的 数据 锁定 问题 。 广 泛 接受 的 API 
和 接 人 协议 需要 虚拟 化 应 用 程序 能 提供 较 好 的 兼容 性 和 灵活 性 。 

4.1.2.2 成 本 模型 

在 传统 的 开 计算 中 ， 用 户 必 须 为 其 计算 机 和 外 设 等 投入 资金 。 除 此 之 外 ， 他 们 还 得 面 对 操 
作 和 维护 计算 机 系统 的 操作 开支 ， 包 括 人 员 和 服务 成 本 。 图 4-3a 显示 了 传统 IT 在 固定 资本 投入 
基础 上 额外 可 变 的 操作 成 本 。 注 意 ， 固 定 成 本 是 主要 成 本 ， 它 随 用 户 数 的 增加 可 能 会 略 有 下 降 。 
但 是 操作 成 本 会 随 着 用 户 数 的 增加 而 快速 增长 ， 因 此 ， 总 开销 也 会 急剧 增加 。 另 外 ， 云 计算 使 用 
按 实际 使 用 量 付 费 的 商业 模式 ， 其 中 用 户 作 业 被 外 包 给 数据 中 心 。 在 使 用 云 时 ， 无 需 为 购买 硬件 
而 预付 费用 ， 对 云 用 户 而 言 只 存在 可 变 成 本 ， 如 图 4-3b 所 示 。 





用 户 数 用 户 数 
a) 传统 IT 成 本 模型 b ) 云 计算 成 本 模型 


图 4-3 传统 IT 用 户 和 云 用 户 的 计算 经 济 


总 的 来 讲 ， 云 计算 会 大 大 降低 小 型 用 户 及 大 型 企业 的 计算 成 本 。 在 传统 IT 用 户 和 云 用 户 之 
间 ， 计 算 经 济 并 未 显示 出 很 大 的 差距 。 无 需 预先 购买 昂贵 计算 机 而 节约 的 成 本 在 很 大 程度 上 减 
轻 了 创业 型 公司 的 经 济 负 担 。 云 用 户 只 需 支 付 操作 费用 、 无 需 投入 固定 设备 的 事实 吸引 了 大 量 
的 小 型 用 户 ， 这 也 是 云 计算 的 主要 驱动 力 ， 对 大 部 分 企业 和 繁重 的 计算 机 用 户 来 讲 极 具 吸引 力 。 
事实 上 ,任何 IT 用 户 , 若 其 资本 支出 压力 大 于 操作 费用 ， 都 应 考虑 将 他 们 超出 负 蓓 的 工作 交 给 
效用 计算 或 云 服务 提供 商 。 
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4.1.2.3 云 生 态 系 统 

随 着 互联 网 云 的 大 量 涌现 ， 提 供 商 、 用 户 和 技术 构成 的 生态 系统 也 开始 逐渐 出 现 。 这 个 生态 
系统 围绕 公有 云 不 断 地 演进 。 关 于 开源 云 计算 工具 的 兴趣 不 断 高 涨 ， 允 许 组 织 使 用 内 部 基础 设 
施 构建 其 自己 的 laS 云 。 私 有 云 和 混合 云 并 不 是 互 斥 的 ， 两 者 都 包括 了 公有 云 。 私 有 云 或 混合 
云 允 许 使 用 远程 Web 服务 接口 通过 互联 网 远程 访问 它们 的 资源 ， 例 如 Amazon EC2。 

Sotomayor 等 人 "提出 了 构建 私有 云 的 生态 系统 ， 如 图 4-4 所 示 。 他 们 提出 了 私有 云 的 四 级 
生态 系统 开发 。 在 用 户 端 ， 消 费 者 请 求 一 个 灵活 的 平台 ; 在 云 管理 级 ， 云 管理 者 在 IaaS 平台 上 
提供 虚拟 化 的 资源 ; 在 虚拟 基础 设施 ( VI) 管理 级 ， 管 理 器 在 多 个 服务 器 集群 上 分 配 虚拟 机 ; 
最 后 ,在 虚拟 机 管理 级 上 ， 虚 拟 机 管理 器 控制 安装 在 独立 主机 上 的 虚拟 机 。 云 工具 的 生态 系统 跨 
越 了 云 管理 和 VI 管理 ， 由 于 它们 之 间 缺 乏 开 放 的 和 标准 的 接口 ， 集 成 这 两 层 较为 复杂 。 







云 消费 者 










需要 外 包 过 量 | 需要 资源 来 为 它们 的 用 户 实例 化 服务 ( Web、 数据 库 等 ) 


的 负载 





加 工 
的 基础 架构 





“ 云 工具 箱 当前 不 使 用 虚拟 基础 
架构 管理 器 ， 相 反 ， 直 接管 理 
虚拟 机 自己 ， 不 需要 提供 VI 管 ZEM 
O 理 器 特征 的 完整 集合 | 






b) 


xm || em] . T 
d) 


图 4-4 ”构建 私有 云 的 云 生态 系统 : a) 消费 者 要 求 一 个 灵活 的 平台 ; b) 云 管理 器 在 laas 平台 上 提 
供 虚 拟 化 的 资源 ; c) VI 管理 器 分 配 虚拟 机 ; d) 虚拟 机 管理 器 处 理 安 装 在 服务 器 上 的 虐 
拟 机 
注 : 由 Sotomayor 等 人 [68] 提供 。 
越 来 越 多 的 创业 公司 正在 将 云 资源 的 使 用 作为 开 策略， 在 管理 他 们 自己 的 IT 基础 设施 方面 
开销 很 低 甚至 无 开销 。 我 们 期 望 一 个 灵活 的 、 开 放 的 体系 结构 ， 使 得 组 织 可 以 构建 私有 云 或 泥 合 


云 ，VI 管 理 也 以 此 为 目标 。VI 工具 的 实例 有 oVirt (https://fedorahosted. org/ovirt/)、VMware 的 [198 
vSphere/4 (www. vmware. com/products/vsphere/)、Platfom Computing 的 VM Orchestrator ( www. na 














platform. com/ Products/ platform- vm- orchestrator) o 

这 些 工具 支持 在 一 个 物理 资源 池上 的 动态 定位 和 虚拟 机 管理 、 自 动 负载 均衡 、 服 务 器 合并 
和 动态 基础 设施 的 规模 调整 与 分 区 。 除 了 公有 云 如 Amazon EC2 Eucalyptus 和 Globus Nimbus 是 
虚拟 化 云 基础 设施 的 开源 工具 。 要 访问 这 些 云 管理 工具 ， 可 以 使 用 Amazon EC2WS, Nimbus 
WSRF 和 ElasticHost REST 云 接口 。 对 VI 管理 来 讨 ，OpenNebula 和 VMware 的 vSphere 可 以 管理 所 
有 的 虚拟 机 生成 ， 包括 Xen, KVM 和 VMware 工具 。 

4.1.2.4 私有 云 的 激增 

通常 来 讲 ， 私 有 云 使 用 已 存在 的 IT 基础 设施 和 企业 或 政府 组 织 内 部 的 员工 。 公 有 云 和 私有 
云 动 态 处理 负 载 。 然 而 ， 公 有 云 在 处 理 负 载 时 应 不 依赖 于 通信 。 这 两 种 类 型 的 云 都 会 发 布 数据 和 
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虚拟 机 资源 。 然 而 ， 私 有 云 可 以 平衡 负载 ， 在 同一 个 局 域 网 内 能 更 有 效 地 利用 IT 资源 。 私 有 云 
也 能 提供 试制 测试 ， 在 数据 隐私 和 安全 策略 方面 更 为 有 效 。 在 公有 云 中 ， 诡 升 的 负载 常会 被 分 
流 ， 公 有 云 的 主要 优势 在 于 用 户 可 以 避免 在 硬件 、 软 件 和 人 员 等 开 投资 方面 的 资本 开支 。 

大 部 分 企业 通过 虚拟 化 他 们 的 计算 机 来 降低 运营 成 本 。 微 软 、Oracle 和 SAP 等 公司 可 能 想 要 
建立 策略 驱动 的 计算 资源 管理 ， 主 要 用 来 改进 他 们 的 员工 和 客户 的 服务 质量 。 通 过 集成 虚拟 化 
的 数据 中 心 和 公司 IT 资源， 他 们 提供 了 “IT 即 服务 ”来 改进 其 公司 的 操作 灵活 性 ， 避 免 了 每 隔 
18 个 月 需要 进行 的 大 量 服务 器 更 新 。 如 此 一 来 ， 这 些 公司 大 大 改进 了 他 们 的 ITAR, 

4.1.3 基础 设施 即 服务 (laaS) 

云 计算 将 基础 设施 、 平 台 和 软件 作为 服务 发 布 ， 使 得 用 户 能 够 以 即 用 即 付 的 模式 使 用 基于 
定 阅 的 服务 。 在 云 上 提供 的 服务 通常 可 以 分 为 三 个 不 同 的 服务 模型 ， 即 IaaS, Paas (平台 即 服 
务 ) F Saas (软件 即 服务 ) 。 它 们 构成 了 为 终端 用 户 所 提供 的 云 计 算 解 决 方案 的 三 个 支柱 。 这 三 
个 模型 允许 用 户 通 过 互联 网 访问 服务 ， 完 全 依赖 于 云 服务 提供 商 的 基础 设施 。 

这 些 模 型 在 提供 商 和 用 户 之 间 基 于 不 同 的 SLA 提供 。 广 义 来 讲 ， 云 计算 的 SLA 是 指 服务 可 
用 性 、 性 能 和 数据 保护 与 安全 等 方面 。 图 4-5 展示 了 在 云 的 不 同 服务 级 别 的 三 个 云 模型 。SaaS 由 
用 户 或 客户 使 用 特殊 的 接口 ， 用 在 应 用 程序 端 在 PaaS 层 ， 云 平台 必须 进行 计 费 服务 ， 处 理 作 
业 队 列 ， 启 动 和 监视 服务 ; 底层 是 laS 服务 ， 需 要 配置 数据 库 、 计 算 实 例 、 文 件 系统 和 存储 以 
满足 用 户 需 求 。 





PT nee dd 
和信 玉生 和 人 
ar 


文件 系统 





DaaS 


图 4-5 处 于 不 同 服务 级 别 的 TaaS. PaaS 和 SaaS 云 服务 模型 
注 : 由 南 加 州 大 学 的 于 Suh 和 S. Kang 提供 。 


该 模型 允许 用 户 使 用 虚拟 化 IT 资源 ， 包 括 计算 、 存 储 和 网 络 。 简 而 言 之 ， 服 务 在 租用 的 云 
基础 设施 上 进行 。 用 户 可 以 在 其 选择 的 操作 系统 环境 上 部 署 和 和 运行 他 们 的 应 用 程序 。 用 户 不 能 
管理 或 控制 下 面 的 云 基础 设施 ， 但 可 以 控制 操作 系统 、 存 储 、 部 署 的 应 用 程序 ， 并 且 可 能 的 话 ， 
也 可 以 选择 网 络 组 件 。IaaS 模型 包括 存储 即 服务 、 计 算 实 例 即 服务 和 通信 即 服务 。 例 4. 1 中 的 
VPC (Virtual Private Cloud， 虚 拟 私有 云 ) 显示 了 如 何 为 多 用 户 提供 Amazon EC2 集群 和 S3 存储 。 
近年 来 出 现 了 许多 初创 的 云 提供 商 ，GoGrid、FlexiScale 和 Aneka 都 是 很 好 的 例子 。 表 4-1 BAT 
HS 个 公有 云 提供 商 发 布 的 IaaS， 感 兴趣 的 读者 可 以 访问 公司 的 网 站 以 获得 更 新 的 信息 。 更 多 的 


例子 可 以 参考 近期 的 两 本 云 相 关 的 书籍 。 


#4-1 laaS 的 公有 
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ZAR 虚拟 机 实例 容量 API 和 接 入 工具 hypervisor、 客 户 操作 系统 
每 个 实例 有 1 ~ 20 个 EC2 处 理 器 、1.7 ~ CLI 或 Web 服务 : : 
Amazon EC2 15 CB 内 存 和 160 ~ 1. 69 TB 磁盘 存储 (Ws) 门户 Xen, Linux, Windows 
3 每 个 实例 有 1 ~6 7 CPU, 0.5~8 GB 内 REST, Java, PHP, k : 
GoGrid 存 、30 ~480 CB 磁盘 存储 Python, Ruby Xen, Linux, Windows 


8 | REST, Python, PHP, | SOS 











Rackspace Cloud 内 存 , 10 ~620 CB 的 磁盘 存储 | aa C#, . NET Xen, Linux 
英国 的 | 每 个 实例 有 h Ee ee GB Web 控制 台 下 Xen, Linux, Windows 
FlexiScale 存 、20 ~270 CB 磁盘 存储 | etre 
| 每 个 实例 的 CPU 达 8 个 ， 并 有 0.25 ~ | 无 特定 的 API, SSH, 操作 系统 级 虚拟 
Joyent Cloud 


32 GB 内 存 、30 ~480 GB 磁盘 存储 





例 4.1 用 于 多 租户 的 Amazon VPC 
通常 情况 下 ， 用 户 可 以 使 用 个 人 设备 进行 基本 的 计算 ; 但 当 他 必须 满足 特定 的 负载 需求 时 ， 
可 以 使 用 Amazon VPC 来 提供 额外 的 EC2 实例 或 更 多 的 存储 (S3) 来 处 理 紧 急 应 用 。 当 包括 敏感 
公有 云 的 应 用 会 受到 阻碍 ， 私 有 云 可 以 解决 公有 云 在 这 方面 的 隐私 问题 ， 图 4-6 
显示 了 一 个 私有 云 VPC。 


数据 和 软件 时 ， 









互联 网 之 上 安 
全 的 VPN 连 接 


“~ 客户 网 络 
图 4-6 Amazon VPC ( 


注 : 由 VMware 提供 ,http://aws. amazon. com/vpe/。 


Amazon EC2 提供 如 下 服务 : sh Ar HR SIE Ay SAAB HE IE, CLI Web K 
Z (SOAP 和 Query), Æ F Web 的 控制 台 用 户 接 口 、 通 过 SSH 和 Windows 访问 虚拟 机 实例 、 


99.5% 可 用 的 约定 、 每 小 时 计价 、Linux 和 Windows 操作 系统 ， 


Virtual/ Min 


虚拟 私有 云 ) 





化 ，OpenSolaris 







以 及 自动 伸缩 和 负载 均衡 。 我 们 将 


会 在 第 6 章 详细 展示 EC 的 使 用 。VPC 允许 用 户 对 配置 的 AWS 处 理 器 、 内 存 和 存储 进行 隔离 ， 防 
止 被 其 他 用 户 干 扰 。 自 动 伸缩 和 弹性 负载 均衡 服务 可 以 支持 相关 的 请 求 。 自 动 伸缩 允许 用 户 自 动 增 
加 或 减少 他 们 的 虚拟 机 实例 容量 。 使 用 自动 伸缩 ， 我 们 可 以 确保 配置 足够 数目 的 Amzaon EC2 实例 
来 满足 期 望 的 性 能 ; 或 者 当 负载 降低 时 ， 可 以 降低 虚拟 机 实例 容量 来 降低 成 本 。 E 
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4.1.4 平台 即 服务 (PaaS) 和 软件 即 服务 (SaaS) 

本 节 将 介绍 云 计 算 的 PaaS 和 SaaS HAY, GH, SaaS 构建 在 PaaS 之 上 ，Paas 则 构建 在 IaaS 
之 上 。 

4.1.4.1 平台 即 服务 (PaaS) 

为 了 使 用 配置 的 资源 开发 、 部 署 和 管理 应 用 程序 的 执行 ， 需要 一 个 带 有 合理 的 软件 环境 的 
云 平 台 。 这 样 的 平台 包括 操作 系统 及 运行 时 库 支持 。 这 就 是 创建 Paas 模型 的 动机 ， 可 以 基于 该 
模型 来 开发 和 部 署 用 户 的 应 用 程序 。 表 4-2 展示 了 由 5 个 PaaS 服务 提供 的 云 平 台 服 务 ， 其 中 部 
分 PaaS 的 进一步 细节 见 4.4 节 和 第 6 章 ， 与 其 相关 的 例子 和 案例 研究 参见 文献 [10，18 ] 。 


表 4-2 PaaS 的 5 个 公有 云 发 行 ("| 











云 名 称 语言 及 开发 工具 提供 商 支 持 的 编程 模型 目标 应 用 和 存储 选项 
谷歌 应 用 引擎 M Don Java 和 基于 Eclipse MapReduce 、 按 需 Web 编程 an 应 用 和 BigTable 
Salesforce. com 的 Apex、 基 于 Eclipse 的 IDE 和 基 THER, Excel 类 的 公式 和 
微软 Azure .NET、 微 软 Visual Studio 的 不 受 限 的 模型 企业 和 Web 应 用 

zure 工具 
Perr Hive, Pig, Cascading, Java, Ruby, 
MapReduce pel, Pylon, PEP. Re Cote MapReduce 数据 处 理 和 电子 商务 
Aneka . NET， 独 立 SDK - 线程 、 任 务 、MapReduce .NET 企业 应 用 , HPC 





台 云 是 一 个 由 硬件 和 软件 基础 设施 构成 的 集成 的 计算 机 系统 ， 可 以 在 这 个 虚拟 化 的 云 
平台 上 使 用 提供 商 〈 如 Java, Python, . NET) 支持 的 一 些 编程 语言 和 软件 工具 开发 用 户 应 用 
程序 。 用 户 不 需要 管理 底层 的 云 基础 设施 。 云 提供 商 支 持 用 户 在 一 个 定义 良好 的 服务 平台 上 

[203] 进行 应 用 程序 的 开发 和 测试 。 该 PaaS 模型 使 得 来 自 世 界 不 同 角落 的 用 户 可 以 在 一 个 统一 的 软 
件 开发 平台 上 协同 工作 。 该 模型 也 鼓励 第 三 方 组 织 提 供 软 件 管理 、 集 成 和 服务 监视 解决 方案 。 

例 4.2 PaaS 应 用 : 谷歌 应 用 引擎 (GAE) 

由 于 Web 应 用 运行 在 谷歌 的 服务 器 集群 上 ， 他 们 与 许多 其 他 用 户 共享 相同 的 能 力 。 应 用 
程序 具有 自动 伸缩 和 负载 均衡 等 特征 ， 当 构建 Web 应 用 时 非常 便利 。 分 布 式 调度 器 也 能 在 特 
定 的 时 间 和 固定 的 间隔 为 触发 的 事件 调度 任务 。 图 4-7 显示 了 GAE 的 操作 模型 。 为 了 使 用 
GAE 开发 应 用 程序 ， 必 须 提供 一 个 开发 环境 。 

谷歌 提供 了 一 个 功能 全 面 的 本 地 开发 环境 ， 它 在 开发 者 的 计算 机 上 模拟 GAE。 所 有 功能 
和 应 用 程序 钠 辑 可 以 在 本 地 实现 ， 非 常 类 似 于 传统 的 软件 开发 。 编 码 和 调试 阶段 也 可 以 在 本 
地 进行 。 在 这 些 步骤 完成 后 ，SDK 提供 上 传 工具 ， 该 工具 将 用 户 应 用 程序 上 传 到 谷歌 的 基础 
设施 中 ， 即 实际 部 署 应 用 程序 的 位 置 。 男 外 也 提供 许多 额外 的 第 三 方 能 力 ， 包括 软件 管理 、 
集成 和 服务 监视 解决 方案 。 

下 面 是 一 些 登 录 到 GAE 系统 时 的 有 用 链接 ; 

o GAE 主页 http://code. google. com/appengine/ 。 

。 注册 账号 或 使 用 Gmail Ik > & ; https: //appengine. google. com/ 。 

e 下 载 GAE SDK; http://code. google. com/appengine/downloads. html, 

e Python 入 门 手册 : http://code. google. com/appengine/docs/python/ gettingstarted/ o 

e Java 入 门 手 册 : http://code. google. com/appengine/docs/java/gettingstarted/ 。 
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Web 应 用 提供 商 














应 用 引擎 
管理 控制 台 





管理 流量 监 
视 版 本 控制 









图 4-7 PaaS 操作 的 谷歌 应 用 引擎 平台 
注 : 由 南 加 州 大 学 的 Yangting Wu 提供 。 


© 免费 服务 Quota 的 页 面 : http://code. google. com/appengine/docs/ quotas. html#Resources , 
e 检查 quota W it # H HW: http://code. google. com/appengine/docs/billing. html # Billable _ 

Quota_Unit_Cost, a 
4.1.4.2 软件 即 服务 (SaaS) 

软件 即 服 务 是 指 上 千 的 云 客户 通过 浏览 器 访问 的 应 用 程序 软件 。Paas 提供 的 服务 和 工具 
用 于 构建 应 用 程序 和 管理 它们 所 部 署 的 由 laas 提供 的 资源 。Saas 模型 将 软件 应 用 程序 作为 最 
务 进行 提供 。 这 样 的 话 ， 对 客户 来 讲 ， 无需 为 服务 器 或 软件 预先 投资 ;对 提供 商 来 讲 ， 与 传 
统 的 用 户 应 用 程序 托管 相 比 成 本 很 低 。 为 支持 PaaS 和 laS, 客户 数据 存储 在 云 中 ， 云 或 者 是 
专门 的 提供 商 , 或 者 是 公开 地 托管 。 

SaaS 服务 的 最 好 的 例子 有 谷歌 的 Gmail H docs, MAJ SharePoint 和 Salesforce. com 的 CRM 
软件 。 他 们 在 促进 公司 内 部 或 成 千 的 小 公司 的 日 常 操作 方面 表现 得 非常 成 功 。 提 供 商 (如 谷 
歌 和 微软 ) 提供 集成 的 IaaS 和 PaaS 服务 ， 而 其 他 (如 亚马逊 和 GoGrid) 则 提供 纯 IaaS 服务 ， 
并 期 望 第 三 方 的 PaaS 提供 商 ( 如 Manjrasoft) 在 他 们 的 基础 设施 服务 之 上 提供 应 用 程序 开发 和 
部 署 服务 。 为 了 证 实 企业 中 云 应 用 的 重要 性 ， 例 4.3 给 出 了 云 应 用 在 实际 生活 中 的 三 个 成 功 
案例 : HIC、 新 媒体 和 商业 交易 。 在 这 些 Saas 应 用 中 使 用 云 服 务 的 优势 显而易见 。 

例 4.3 SaaS 应 用 的 三 个 成 功 案 例 

1. 为 了 通过 DNA 序列 分 析 发 现 新 的 药物 ，Eli Lily 公司 在 构建 高 性 能 的 生物 序列 分 析 时 ， 
使 用 配置 了 服务 器 和 存储 集群 的 亚马逊 AWS 平台 ， 而 没有 使 用 唱 贵 的 超级 计算 机 。IaaS 应 用 
的 优势 是 使 用 更 低廉 的 成 本 降低 药物 部 署 时 间 。 

2. 《纽约 时 报 》 使 用 亚 蕊 名 的 EC2 和 S3 服务 来 从 上 百 万 的 存档 论文 和 报纸 中 快速 获取 有 |204 
用 的 图 片 信息 ， 大 大 节省 了 时 间 并 降低 了 成 本 。 205 
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3. Pitney Bowes (一 个 电子 商务 公司 ) 使 用 微软 的 Azure 平台 以 及 .NET 和 SQL 服务 为 客 
户 提供 机 会 进行 B2B 交易 ， 大 大 增强 了 企业 的 客户 端 基础 。 E 

4.1.4.3 云 服 务 的 混搭 系统 

直至 目前 ， 公 有 云 的 用 户 正在 不 断 上 涨 。 由 于 对 在 商业 社会 泄露 敏感 数据 缺乏 信任 ， 因 
此 越 来 越 多 的 企业 、 组 织 和 团体 开始 开发 私有 云 ， 这 些 私 有 云 需 要 更 高 的 可 定制 性 。 通 常 ， 
企业 云 由 一 个 组 织 中 的 许多 用 户 同时 使 用 ， 每 个 用 户 都 可 能 在 云 中 构建 自己 的 特定 应 用 ， 元 
数据 表示 中 需要 定制 化 的 数据 分 区 、 逻 辑 和 数据 库 。 未 来 可 能 会 出 现 更 多 的 私有 云 。 

根据 2010 年 谷歌 的 搜索 调查 显示 ， 大 家 对 网 格 计算 的 兴趣 正在 快速 降低 。 云 混搭 系统 (cloud 
mashup) 源 于 用 户 需 要 同时 或 依次 使 用 多 个 云 。 例 如 ， 一 个 工业 供应 链 可 能 需要 在 不 同 阶段 使 用 不 
同 的 云 资源 或 服务 。 一 些 公共 的 资源 库 提供 上 千 的 服务 API 和 Web 电子 商务 服务 的 混搭 系统 。 流 行 
的 API 由 谷歌 地 图 、Twitter、YouTube、Amazon eCommerce 和 Salesforce. com 等 提供 。 


4.2 数据 中 心 设计 与 互连网 络 


数据 中 心 往往 是 用 大 量 服务 器 通过 巨大 的 互连网 络 构建 而 成 。 在 本 节 中 ， 我 们 会 研究 大 型 
数据 中 心 和 小 型 模块 化 数据 中 心 的 设计 ， 小 型 模块 化 数据 中 心 可 以 放置 在 40 英尺 集 装 容器 卡车 
中 。 然 后 ， 我 们 将 研究 模块 化 数据 中 心 互 连 及 其 管理 问题 与 解决 方案 。 

4.2.1 仓库 规模 的 数据 中 心 设计 

Dennis Gannon 声称 :“ 云 计算 基于 大 规模 数据 中 心 ”"'*1。 图 4-8 显示 了 同一 屋檐 下 与 购物 中 
心 ( 是 球场 11 倍 大 小 ) 一 样 大 的 数据 中 心 ， 该 数据 中 心 可 容纳 40 万 到 100 万 台 服 务 器 。 数 据 中 
心 可 以 形成 规模 化 效益 ， 即 较 大 的 数据 中 心 有 更 低 的 单位 成 本 。 小 型 数据 中 心 可 能 有 1 000 BG 
RSet. BP ORK, 运营 成 本 越 低 。 对 于 一 个 具有 400 台 服 务 器 的 大 型 数据 中 心 ， 经 估算 其 
每 月 的 运营 成 本 中 网 络 成 本 大 约 为 13 美元 /Mbps， 存 储 成 本 大 约 为 0.4 美元 /GB， 另 外 还 有 管理 
成 本 。 这 些 单位 成 本 均 大 于 那些 1 000 台 服 务 器 的 数据 中 心 成 本 。 经 营 一 个 小 型 数据 中 心 的 网 络 
成 本 是 前 者 的 7 倍 多 ， 存 储 成 本 是 前 者 的 5.7 倍 多 。 微 软 有 大 约 100 个 或 大 或 小 的 数据 中 心 ， 它 
们 分 布 在 全 球 各 地 。 






图 4-8 11 倍 足球 场 大 小 的 数据 中 心 ， 可 容纳 40 万 到 100 万 台 服 务 器 
注 ， 由 Dennis Gannon[26] 提供 。 
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4.2.1.1 数据 中 心 的 施工 要 求 

大 部 分 数据 中 心 是 由 市 面 上 买 得 到 的 组 件 构 建 而 成 。 一 个 现成 的 服务 器 通常 包含 许多 处 理 
Sia, ALE RRA A+ SK CPU 及 内 部 的 多 级 高 速 缓 存 、 本 地 共享 且 一 致 的 
DRAM， 以 及 一 些 在 线 连接 的 磁盘 驱动 器 。 机 架 内 的 DRAM 和 磁盘 资源 可 以 通过 一 级 机 架 交 换 机 
访问 ， 并 且 所 有 机 架 上 的 资源 都 可 以 通过 集群 级 交换 机 访问 。 想 象 一 下 一 个 建 有 2 000 个 服务 器 
的 数据 中 心 ， 每 台 服 务 器 有 8 CB 的 DRAM 和 4 个 1 TB 的 磁盘 驱动 器 。 每 组 40 台 服 务 器 通过 1 
Gbps 端口 连接 到 机 架 级 交换 机 ， 而 这 人 台 机 架 级 交换 机 还 额外 有 8 个 1 Gbps 的 端口 ， 用 于 把 机 架 
连接 到 集群 级 交换 机 上 。 

Heat” ， 本 地 磁盘 带宽 是 200 MB/s， 而 通过 共享 机 架 上 行 链 路 访问 下 架 磁 盘 的 带宽 是 
25 MB/s。 集 群 的 总 磁盘 存储 大 约 是 本 地 DRAM 的 近 1 000 万 倍 。 大 型 应 用 程序 必须 处 理 延 迟 、 
带宽 和 容量 之 间 较 大 的 差异 。 数 据 中 心 使 用 的 组 件 与 构建 超级 计算 机 系统 所 使 用 的 组 件 有 很 大 
的 差异 。 超 大 型 数据 中 心 所 使 用 的 组 件 相对 较为 便宜 。 

对 成 和 于 上 万 的 服务 器 来 讲 ，1% 的 节点 产生 并 发 故障 (硬件 故障 或 者 软件 故障 ) 都 是 很 正常 
的 现象 。 硬 件 可 能 会 发 生 很 多 故障 ， 例 如 ，CPU 故障 、 磁 盘 IO 故障 和 网 络 故障 。 甚 至 很 有 可 能 
在 电源 崩溃 的 情况 下 ， 整 个 数据 中 心 无 法 正常 工作 。 此 外 ， 一 些 故 障 也 可 能 会 由 软件 引起 。 发 生 
故障 时 ， 服 务 和 数据 不 应 该 丢失 。 通 过 宛 余 硬 件 可 以 实现 可 靠 性 。 软 件 必须 在 不 同 的 位 置 保持 数 
据 的 多 个 副本 ， 并 且 在 硬件 或 软件 出 现 故 障 时 ， 还 可 以 继续 访问 这 些 数据 。 

4.2.1.2 数据 中 心机 房 的 冷却 系统 

图 4-9 显示 了 数据 中 心机 房 中 仓库 的 布局 及 其 冷却 设备 。 数 据 中 心机 房 为 隐藏 电缆 、 电 源 线 
和 制冷 用 品 提供 了 一 层 活 地 板 。 制 冷 系统 比 电力 系统 简单 一 些 。 活 地 板 有 一 层 置 于 支架 上 的 钢 
网 格 ， 处 于 混凝土 地 板 之 上 大 约 2 ~4 英尺 。 地 下 区 域 常 用 于 将 电缆 接 到 机 架 上 ， 但 其 主要 用 途 
是 将 凉 气 分 散 到 服务 器 机 架 上 。CRAC (机 房 空 调 ) 单元 通过 向 架空 地 板 空 间歇 人 冷 空 气 来 为 该 
空间 增 压 。 

天 花 板 天 花 板 
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E 4-9 活 地 板 数据 中 心 的 制冷 系统 ， 带 有 冷 热 空气 循环 ， 支 持 水 加 热 交换 设施 
iz; 由 DLB 同事 D. Dyer[22] 提供 。 
冷气 通过 服务 器 机 架 前 面 的 多 孔 板 从 通风 系统 中 出 来 。 机 架 排 列 在 冷 热 过 道 交 替 的 长 走道 
中 ， 以 避免 冷 热 空气 混合 。 由 服务 器 产生 的 热 空气 送 入 CRAC 单元 人 口 ，CRAC 单元 对 其 进行 冷 
Al, 冷 空气 用 完 后 会 再 次 通过 活 地 板 空间 进行 循环 。 通 常情 况 下 ， 传 人 的 冷却 剂 是 12 ~ 14% ， 
温 热 的 冷却 液 成 为 一 个 冷却 器 。 较 新 的 数据 中 心 往往 会 插入 一 个 冷却 塔 ,， 来 预 冷 却 冷 凝 器 的 水 
循环 液 。 基 于 水 的 自然 制冷 使 用 冷却 塔 散热 。 冷 却 塔 使 用 独立 的 制冷 循环 ， 水 在 热 交 换 中 吸收 冷 
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却 剂 的 热量 。 
4.2.2 数据 中 心 互连网 络 

数据 中 心 关 键 的 核心 设计 是 数据 中 心 集群 中 所 有 服务 器 之 间 的 互连网 络 ， 其 中 的 网 络 设 
计 必 须 满 足 5 个 特殊 要 求 : 低 延 迟 、 高 带宽 、 低 成 本 、 消 息 传 递 接 口 (Message-Passing 
Interface, MPI) 通信 支持 和 容错 。 服 务 器 间 网 络 的 设计 必须 满足 所 有 服务 器 节点 之 间 的 点 对 
点 和 群 通信 模式 。 特 定 的 设计 考虑 见 下 面 小 节 。 

4.2.2.1 应 用 程序 的 网 络 通信 支持 

网 络 拓扑 结构 应 该 支持 所 有 的 MPI 通信 模式 ， 包 括 点 对 点 和 群 MPI 通信 。 网 络 应 具有 高 
平分 带宽 以 满足 需求 。 例 如 ， 一 对 多 的 通信 用 于 支持 分 布 式 文件 访问 。 我 们 可 以 使 用 一 个 或 
几 个 服务 器 作为 元 数据 的 主 服务 器 ， 元 数据 的 主 服务 器 需要 与 集群 中 的 从 服务 器 节点 通信 。 
为 支持 MapReduce 编程 范式 ， 所 设计 的 网 络 必须 能 够 快速 执行 map 和 reduce 函数 (第 7 章 详 
细 讨 论 ) 。 换 名 话说， 底层 的 网 络 结构 应 该 能 支持 用 户 应 用 程序 所 要 求 的 各 种 网 络 通信 模式 。 

4.2.2.2 网 络 的 可 扩展 性 

互连网 络 应 该 是 可 扩展 的 。 集 群 互 连 网 络 拥 有 成 千 上 万 个 服务 器 节点 ， 应 该 允许 更 多 的 
服务 器 添加 到 数据 中 心 。 面 对 这 种 未 来 可 预期 到 的 增长 ， 网 络 拓扑 结构 应 当 进 行 重 构 。 另 外 ， 
网 络 应 该 能 支持 负载 均衡 和 在 服务 器 之 间 移 动 数据 。 链接 不 应 该 成 为 应 用 程序 的 性 能 瓶颈 。 
互 连 的 拓扑 结构 应 避免 这 种 瓶颈 的 出 现 。 

第 2 章 中 提 到 的 胖 树 和 交叉 网 络 可 以 通过 低 成 本 的 以 太 网 交换 机 实现 。 但 是 ， 当 服务 器 
的 数量 急剧 增加 时 ， 设 计 可 能 具有 很 大 挑战 性 。 关 于 可 扩展 性 的 最 关键 问题 是 构建 数据 中 心 容 
器 时 对 模块 化 网 络 增长 的 支持 ， 这 将 在 4.2.3 节 进 行 讨 论 。 一 个 数据 中 心 集 装 器 (container) 包含 
数 百 台 服 务 器 ， 并 且 是 构建 大 型 数据 中 心 的 重要 组 成 部 分 。4. 2. 4 节 将 会 解释 许多 集 装 器 之 间 的 网 
络 互 连 。 集 群 网 络 需 要 为 数据 中 心 集 装 器 而 设计 ， 多 个 数据 中 心 集 装 器 之 间 需 要 电缆 连接 。 

数据 中 心 不 是 由 现在 堆放 在 多 个 机 架 中 的 服务 器 构建 而 成 ， 而 是 由 数据 中 心 拥有 者 购买 服 
务 器 集 装 器 ， 其 中 每 个 集 装 器 包含 几 百 甚至 成 千 上 万 的 服务 器 节点 。 拥 有 者 只 要 插 上 电源 、 连 上 
外 部 链接 注 人 冷却 水 ， 整 个 系统 就 可 以 开始 工作 。 这 样 不 仅 效率 高 ， 而 且 降 低 了 采购 和 维护 服务 
器 的 成 本 。 一 种 方法 是 首先 建立 主干 连接 ， 然 后 将 主干 连接 扩展 到 终端 服务 器 ; 另 一 种 方法 是 通 
过 外 部 开关 和 线 缆 来 连接 多 个 集 装 器 。 

4.2.2.3 容错 与 降级 

互连网 络 应 该 提供 一 些 容错 链接 或 切换 故障 的 机 制 。 此 外 ， 在 数据 中 心中 的 任何 两 个 服务 
器 节点 之 间 应 该 建立 多 个 路 径 ， 通 过 在 元 余 服务 器 之 间 复 制 数据 和 计算 来 实现 服务 器 容错 。 类 
似 的 元 余 技 术 也 应 该 适用 于 网 络 结构 。 软 件 和 硬件 网 络 宛 余 可 以 用 于 应 付 潜在 的 故障 。 在 软件 
方面 ， 软 件 层 应 该 可 以 感知 到 网 络 故 障 ， 包 转发 应 避免 使 用 断 开 的 链接 ， 网 络 支持 软件 驱动 程序 
应 在 不 影响 云 操作 的 前 提 下 进行 透明 处 理 。 

一 旦 失败， 网 络 结构 应 该 在 有 限 的 节点 故障 中 平稳 降级 ， 这 时 就 需要 热 插 拔 组 件 ， 不 应 该 存 
在 会 将 整个 系统 拖 垮 的 单 点 路 径 或 单 点 故障 。 网 络 的 拓扑 结构 中 有 很 多 创新 。 网 络 结构 通常 分 
为 两 层 ， 下 层 接近 终端 服务 器 ， 上 层 在 服务 器 组 或 子 集群 中 建立 骨干 网 连接 ， 它 们 的 层次 化 互 连 
方法 需要 建立 模块 化 集 装 器 的 数据 中 心 。 

4.2.2.4 以 交换 机 为 中 心 的 数据 中 心 设计 

截至 目前 ， 建 立 数据 中 心 规模 的 网 络 有 两 种 方法 ; 一 种 以 交换 机 为 中 心 ， 另 一 种 以 服务 器 为 
中 心 。 在 以 交换 机 为 中 心 的 网 络 中 ， 交 换 机 用 于 连接 服务 器 节点 。 以 交换 机 为 中 心 的 设计 不 需要 
对 服务 器 做 任何 修改 ， 不 会 影响 服务 器 端 。 以 服务 器 为 中 心 的 设计 不 会 修改 运行 在 服务 器 上 的 
操作 系统 ， 其 中 使 用 特殊 的 驱动 程序 来 转发 网 络 数据 包 ， 仍 需 组 织 交 换 机 来 实现 互 连 。 
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例 4.4 用 于 数据 中 心 的 腾 树 互连网 络 

图 4-10 显示 了 用 于 构建 数据 中 心 的 胖 树 交换 机 网 络 的 设计 。 尾 树 拓 扑 用 于 互 连 服务 器 节点 。 
拓扑 结构 分 为 两 层 。 服 务 器 节点 都 在 底层 ， 并 且 边 毕 交 挨 用 来 连接 底层 的 节点 。 上 层 集 群 化 底层 
的 边缘 交换 机 。 一 组 集群 化 交换 机 、 边 缘 交 换 机 和 它们 的 叶 节 点 构成 一 个 集 装 器 。 核 心 交 换 机 提 
供 不 同 集 装 器 间 的 路 径 。 胖 树 结构 在 任何 两 个 服务 器 节点 之 间 提 供 了 多 条 路 径 ， 通 过 为 孤立 链 
路 故障 提供 备用 路 径 保 证 了 容错 性 。 

集群 化 交换 机 和 核心 交换 机 出 现 故 障 不 会 影响 整个 网 络 连接 。 任 何 边缘 交换 机 出 现 故 障 只 
影响 少数 终端 服务 器 节点 。 在 一 个 集 装 器 内 的 额外 交换 机 为 大 规模 数据 移动 中 支持 云 计算 应 用 
提供 了 更 高 的 带宽 ,使 用 的 组 件 是 低 成 本 的 以 太 网 交换 机 ， 这样 可 以 减少 很 多 成 本 。 为 防止 故 
障 ， 路 由 表 提 供 了 额外 的 路 由 路 径 。 路 由 算法 构建 于 内 部 交换 机 中 ， 在 交换 机 出 现 故 障 期 间 ， 只 





a 
10.0.1.2 10.2.0.2 10.2.0.3 
集 装 器 0 集 装 器 1 集 装 器 2 集 装 器 3 
图 4-10 用 于 可 伸缩 数据 中 心 的 胖 树 互 连 拓 扑 结构 
注 : 由 M. Al-Fares 等 人 [31 提供 。 210 


4.2.3 运送 集 装 器 的 模块 化 数据 中 心 

现代 数据 中 心 的 结构 类 似 于 封装 在 拖车 集 装 器 内 的 服务 器 集群 制造 三。 图 4-11 显示 了 在 SGI 
ICE Cube 模块 化 的 数据 中 心中 封装 在 拖车 集 装 器 内 的 多 个 服务 器 机 架 。 在 集 装 器 内 ， 数 百 个 刀 
形 服务 器 都 封装 于 集 装 器 壁 四 周 的 机 架 内 。 一 组 风扇 使 得 服务 器 机 架 产生 的 热气 通过 换 热 器 流 
通 ， 从 而 在 一 个 不 断 的 循环 回路 中 为 下 一 个 机 架 制冷 (细节 见 图 4-11 题 注 ) SGI ICE Cube 中 的 
每 个 集 装 器 可 容纳 46 080 个 处 理 器 核心 或 30 PB 存储 。 
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图 4-11 构建 在 拖车 ICE Cube 集 装 器 中 的 模块 化 的 数据 中 心 ， 可 使 用 冷水 换 热 空气 循环 制冷 
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使 用 模块 化 集 装 器 构建 的 大 型 数据 中 心 ， 看 起 来 像 集装箱 卡车 的 大 制造 厂 。 这 种 基于 集 装 
器 的 数据 中 心 主要 由 如 下 需求 所 驱动 : 低能 耗 、 高 计算 机 密度 、 利 用 更 低 的 电力 成 本 将 数据 中 心 
灵活 迁移 到 更 好 的 位 置 、 更 好 的 冷却 水 供应 和 更 低廉 的 安装 维护 工程 师 。 与 传统 仓库 数据 中 心 
相 比 ， 复 杂 的 冷却 技术 最 多 可 以 减少 80% 的 冷却 成 本 。 冷却 的 空气 和 冷水 源源 不 断 地 通过 热 交 
换 管 为 服务 器 机 架 制 冷 ， 其 维修 极为 方便 。 

数据 中 心 通常 构建 在 租赁 和 电费 更 便宜 、 散 热 更 高 效 的 场所 。 仓 库 规模 的 数据 中 心 和 模 
块 化 的 数据 中 心 都 是 必需 的 。 事 实 上 ， 模 块 化 卡车 集 装 器 可 以 放置 在 一 起 ， 就 像 一 个 大 型 数 
据 中 心 的 集 装 器 制造 厂 。 除 了 数据 中 心 选 址 和 操作 节能 ， 还 必须 考虑 数据 完整 性 、 服 务 器 监 
控 和 数据 中 心 的 安全 管理 。 如 果 数 据 中 心 集中 在 一 个 单一 的 大 型 建筑 里 ， 这 些 问 题 都 较 容 易 
处 理 。 

集 装 器 数据 中 心 的 构建 

数据 中 心 模块 被 安置 在 一 辆 拖车 的 集 装 器 中 。 模 块 化 的 集 装 器 设计 包括 网 络 、 计 算 机 、 
存储 和 冷却 装置 。 通 过 使 用 更 好 的 气流 管理 改变 水 和 气流 可 以 提高 制冷 效率 。 另 一 个 值得 
关注 的 是 ， 如 何 满足 季节 性 负载 的 需求 。 构 建 一 个 基于 集 装 器 的 数据 中 心 可 以 从 一 个 系统 
(服务 器 ) 开始 ， 然 后 转 为 机 架 系 统 设 计 ， 最 后 转 为 集 装 器 系统 。 各 阶段 的 转化 可 能 需要 
不 同 的 时 间 和 不 断 增 加 成 本 。 构 建 一 个 40 台 服 务 器 的 机 架 可 能 需要 半天 ， 将 1 000 台 服 务 
器 扩展 到 拥有 多 个 机 架 的 整个 集 装 器 系统 要 求 地 板 空间 具有 电源 、 网 络 、 冷 却 装置 和 完整 
的 测试 。 

设计 的 集 装 器 必须 防水 ， 且 便于 运输 。 在 所 有 组 件 完整 、 供 电 和 供水 方便 的 情况 下 ， 模 块 化 
数据 中 心 的 建设 和 测试 可 能 需要 几 天 才能 完成 。 模 块 化 数据 中 心 的 方式 支持 许多 云 服 务 的 应 用 。 
例如 ， 在 所 有 诊所 安装 数据 中 心 会 使 医疗 保健 行业 受益 。 然 而 ， 在 一 个 层次 化 结构 的 数据 中 心 
中 ， 如 何 与 中 央 数 据 库 交 换 信 息 ， 并 定期 保持 一 致 性 ， 成 为 一 个 相当 具有 挑战 性 的 设计 问题 。 配 
置 云 服务 的 安全 性 可 能 会 涉及 多 个 数据 中 心 。 

4.2.4 模块 化 数据 中 心 的 互 连 

基于 集 装 器 的 数据 中 心 模 块 意味 着 使 用 集 装 器 模块 构建 更 大 的 数据 中 心 。 本 节 将 讨论 一 些 
推荐 的 集 装 器 模块 设计 。 它 们 的 互 连 性 表现 在 可 扩展 的 数据 中 心 建设 。 下 面 的 例子 是 一 个 以 服 
务 器 为 中 心 的 数据 中 心 模块 设计 。 

例 4.5 以 服务 器 为 中 心 的 模块 化 数据 中 心 网 络 

Gu SA 开发 出 一 种 用 于 连接 模块 化 数据 中 心 的 、 以 服务 器 为 中 心 的 BCube AA (LA 
4-12) 。 在 图 4-12 中 ， 圆 圈 代 表 服 务 器 ， 怎 形 代表 交换 机 。BCube 提供 了 一 种 层次 化 的 结构 ， 底 
层 包 含 所 有 服务 器 节点 且 构 成 0 级 。1 级 交换 机 构成 BCubeo 的 顶层 。BCube 是 一 个 递归 结构 。 
BCube 由 一 个 连接 到 普 端 口交 换 机 的 球台 服务 器 构成 。BCube (k>1) H n A BCube,_, WR, 
每 个 有 斑 个 于 端口 的 交换 机 。BCube 例子 如 图 4-12 所 示 ， 连 接 的 规则 是 ， 处 于 第 j BCube, 的 
第 台 服 务 器 连接 到 第 i 个 1 级 交换 机 的 第 j 个 端口 。BCube 服务 器 有 多 个 已 连接 的 端口 ， 人 允许 服 
务 器 使 用 额外 的 设备 。 

BCube 在 任何 两 个 节点 之 间 提 供 多 条 路 径 。 多 条 路 径 提供 了 额外 的 带宽 ， 以 支持 不 同 云 应 用 
程序 中 的 通信 模式。 该 BCube 在 服务 器 操作 系统 中 提供 了 一 个 内 核 模 块 来 执行 路 由 操作 。 内 核 
模块 支持 包 转 发 ， 而 传 入 的 数据 包 却 不 在 当前 节点 。 这 种 内 核 的 修改 将 不 影响 上 层 应 用 。 因 此 ， 
在 不 做 任何 修改 的 情况 下 ， 云 应 用 仍然 可 以 运行 在 BCube 网 络 之 上 。 a 

模块 间 的 连接 网 络 

BCube 常用 于 服务 器 集 装 器 内 。 集 装 器 被 认为 是 数据 中 心 的 核心 组 件 。 因 此 ， 即 使 集 装 器 内 
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图 4-12 BCube 
注 ; WC. Guo 等 人 [30] 提 供 。 


部 已 具有 网 络 设计 ， 仍 需要 在 集 装 器 之 间 构 建 另 一 层 网 络 。 在 图 4-13 中 ，Wu SA 提出 一 种 
使 用 上 述 的 BCube 网 络 建造 集 装 器 内 部 连接 的 网 络 拓扑 。 他 们 所 提出 的 网 络 称 为 MDCube (用 于 
模块 化 的 数据 中 心 立方 体 )。 此 网 络 使 用 高 速 交 换 机 连接 BCube 中 的 多 个 BCube 集 装 器 。 同 样 ， 
MDCube 通过 改组 具有 多 个 集 装 器 的 网 络 而 成 。 图 4-13 显示 了 一 个 二 维 的 MDCube 如 何 从 9 个 
BCube, 集 装 器 构建 而 成 。 

除了 集 装 器 (BCube) 里 的 立方 体 结构 外 ， 这 种 体系 结构 还 在 集 装 器 级 别 上 构建 了 一 个 虚拟 
的 超 立 方 体 。 服 务 器 集 装 器 使 用 BCube 网 络 ，MDCube 则 可 用 来 构建 大 型 数据 中 心 以 支持 云 应 用 
的 通信 模式 。 文 献 [45] 详细 描述 了 构建 在 集 装 器 中 的 多 个 模块 化 数据 中 心 互连网 络 的 实现 与 模 
拟 效果 ， 感 兴趣 的 读者 可 作 进 一 步 参 考 。 事 实 上 , 使 用 MDCube 构建 网 络 的 方法 还 有 很 多 。 本 质 
E, BRYA (BCube) 中 的 立方 体 结构 之 外 ， 在 集 装 器 层 还 建立 了 一 个 虚拟 的 超 立 方 体 结 
构 。 服 务 器 集 装 器 使 用 BCube 网 络 ，MDCube 则 可 用 来 构建 大 型 数据 中 心 以 支持 云 应 用 的 通信 
eA, 
4.2.5 数据 中 心 管理 问题 

下 面 是 数据 中 心 资源 管理 的 基本 要 求 。 这 些 建议 来 自 于 IT 和 服务 行业 中 许多 数据 中 心 的 设 
计 与 操作 经 验 。 

。 使 普通 用 户 满意 。 数 据 中 心 的 设计 应 该 至 少 为 广大 用 户 提供 30 年 的 优质 服务 。 
可 控 的 信息 流 。 信 息 流 应 该 可 以 流水 线 化 ， 持 续 的 服务 和 高 可 用 性 是 主要 目标 。 
© 多 用 户 管理 。 系 统 必须 能 够 支持 数据 中 心 的 所 有 功能 ， 包 括 流量 、 数 据 库 更 新 和 服务 器 
维护 。 
适应 数据 库 增长 的 可 扩展 性 。 随 着 负载 增加 ， 系 统 也 应 随 之 扩充 存储、 处理、LO、 电 
源 和 冷却 子 系统 等 也 应 具有 可 扩展 性 。 
虚拟 化 基础 设施 的 可 靠 性 。 故 障 切换 、 容 错 和 虚拟 机 实时 迁移 应 该 结合 起 来 ， 使 得 关键 
应 用 可 以 从 故障 或 灾难 中 尽快 恢复 。 
用 户 和 提供 商 的 低 成 本 。 降 低 构建 在 数据 中 心 之 上 的 云 系统 的 用 户 和 提供 商 的 成 本 ， 包 
括 操作 成 本 。 
安全 防范 和 数据 保护 。 必 须 部 署 数据 隐私 和 安全 防范 机 制 来 保护 数据 中 心 不 受 网 络 攻击 
和 系统 中 断 的 影响 ， 在 用 户 误 用 或 网 络 攻击 中 还 能 保持 数据 的 一 致 性 。 
绿色 信息 技术 。 在 设计 与 操作 当前 和 未 来 数据 中 心 时 ， 非 常 需要 节约 能 耗 和 提升 能 效 。 


用 于 构建 模块 化 数据 中 心 的 高 性 能 、 以 服务 器 为 中 心 的 网 络 
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图 4-13 从 9 个 BCube 集 装 器 构造 出 的 一 个 二 维 MDCube 
注 : 由 Wu 等 人 [2] 提供 。 


云 计算 服务 的 市 场 

通过 工厂 化 的 装 架 、 码 放 和 封装 来 实现 基于 集 装 器 的 数据 中 心 可 能 更 有 效 。 在 客户 点 应 该 
避免 封装 层 。 然 而 ， 数据 中 心 仍 处 于 手工 制作 阶段 ， 尚 不 能 自由 组 装 。 当 功率 密度 超过 
1 250 W/ 伦 时 ， 模 块 化 方法 在 空间 上 更 为 有 效 。 


4.3 计算 与 存储 云 的 体系 结构 设计 


本 节 介 绍 云 设 计 的 一 些 基 本 原则 。 我 们 首先 介绍 高 度 并 行 处 理 大 量 数据 的 基本 云 体系 结构 ; 
然后 介绍 虚拟 化 支持 、 资 源 配置 、 基 础 设施 管理 和 性 能 建 模 。 
4.3.1 通用 的 云 体系 结构 设计 

互联 网 云 作为 公共 的 服务 器 集群 ， 它 们 使 用 数据 中 心 的 资源 按 需 配置 ， 并 进行 共同 的 云 服 
务 或 分 布 式 应 用 。 本 节 将 讨论 云 的 设计 目标 ， 然 后 给 出 一 个 基本 的 云 体系 结构 设计 。 

4.3.1.1 云 平台 设计 目标 

可 扩展 性 、 虚 拟 化 、 有 效 性 和 可 人 靠 性 是 云 平台 的 4 个 主要 设计 目标 。 云 支持 Web 2.0 应 用 。 
云 管理 器 接收 用 户 请 求 ， 找 到 正确 的 资源 ， 然 后 调用 配置 服务 并 启用 云 资 源 。 云 管理 器 软件 需要 
同时 支持 物理 机 器 和 虚拟 机 。 共 享 资源 的 安全 性 和 数据 中 心 的 共享 访问 为 设计 提出 了 另 一 个 
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挑战 。 
平台 需要 确立 超大 规模 的 HPC 基础 设施 。 结 合 起 来 的 硬件 和 软件 系统 使 得 操作 更 为 简单 、 
有 效 。 集 群 的 体系 结构 有 益 于 系统 的 可 扩展 性 。 如 果 一 个 服务 消耗 了 大 量 处 理 能 源 、 存 储 容量 或 
网 络 带宽 ， 只 需要 简单 地 为 其 增加 服务 器 和 带宽 即 可 。 集 群 的 体系 结构 也 有 益 于 系统 的 可 靠 性 。 
数据 可 以 被 存储 在 多 个 位 置 ， 例 如 ， 用 户 的 E-mail 可 以 存放 在 三 个 不 同 地 理 位 置 的 数据 中 心 的 
磁盘 上 。 在 这 种 情况 下 ， 即 使 一 个 数据 中 心 崩 涡 ， 仍 可 以 访问 用 户 的 数据 。 云 体系 结构 的 规模 也 
很 容易 扩展 ， 只 需 增 加 服务 器 并 相应 地 增加 网 络 连接 即 可 。 

4.3.1.2 云 的 关键 技术 

云 计 算 背 后 的 关键 驱动 力 是 无 处 不 在 的 带宽 和 无 线 网 络 、 不 断 下 降 的 存储 成 本 和 互联 网 计 
算 软 件 的 持续 改进 。 云 用 户 可 能 在 峰值 需求 时 请 求 更 多 的 容量 、 降 低 成 本 、 试 用 新 服务 、 移 走 不 
需要 的 容量 ， 而 服务 提供 商 则 可 能 通过 多 路 复 用 、 虚 拟 化 和 动态 资源 部 署 增加 系统 利用 效率 。 硬 
件 、 软 件 和 网 络 技术 的 不 断 改进 使 得 云 成 为 可 能 ， 总 结 见 表 4-3。 

表 4-3 硬件 、 软 件 和 网 络 中 的 云 关 键 技术 
技术 要 求 和 好 处 

快速 平台 配置 | ， 快速、 有效 和 灵活 的 云 资源 配置 ， 以 为 用 户 提供 动态 计算 环境 

按 需 的 虚拟 集群 | ”满足 用 户 需求 的 预 分 配 的 虚拟 化 虚拟 机 集群 ， 以 及 根据 负载 变化 重新 配置 的 虚拟 集群 

多 租户 技术 用 于 分 布 式 软件 的 SaaS ， 可 以 满足 大 量 用 户 的 同时 使 用 和 所 需 的 资源 共享 

海量 数据 处 理 。 | 。 物 联 网 搜索 的 Web 服务 通常 都 需要 进行 海量 数据 处 理 ， 特 别 地 ， 要 支持 个 性 化 服务 

Web 规模 通信 支持 电子 商务 、 远 程 教育 、 远 程 医 疗 、 社 会 网 络 、 电 子 政务 和 数字 娱乐 应 用 程序 

分 布 式 存储 个 人 记录 和 公共 档案 信息 的 大 规模 存储 ， 要 求 云 上 的 分 布 式 存储 


授权 和 计 费 服务 许可 证 管理 和 计 费 服务 有 益 于 效用 计算 中 的 各 类 云 计算 


这 些 技术 为 云 计算 走向 现实 起 到 了 推波助澜 的 作用 。 当 前 大 部 分 技术 是 成 熟 的 ， 可 以 满足 
不 断 增长 的 需求 。 在 硬件 领域 ， 多 核 CPU、 内 存 忌 片 和 磁盘 阵列 的 不 断 发 展 ， 使 得 使 用 大 量 存 储 
空间 构建 更 快速 的 数据 中 心 成 为 可 能 。 资 源 虚 拟 化 使 得 快速 云 部 署 和 灾难 恢复 成 为 可 能 。 面 向 
服务 的 体系 结构 (SOA) 也 起 着 重要 的 作用 。 

SaaS 的 供应 、Web 2.0 标准 和 互联 网 性 能 的 不 断 改进 都 促进 了 云 服 务 的 涌现 。 今 天 ， 云 应 该 
能 在 巨大 数据 量 之 上 满足 大 量 租户 的 需求 。 大 型 分 布 式 存储 系统 的 可 用 性 是 数据 中 心 的 基础 。 
近年 来 ， 许 可 证 管理 和 自动 计 费 技术 的 发 展 也 推进 了 云 计算 的 发 展 。 

4.3.1.3 通用 的 云 体系 结构 

图 4-14 显示 了 一 个 安全 感知 的 云 体系 结构 。 互 联网 云 被 想象 为 大 量 的 服务 器 集群 。 这 些 服 
务 器 按 需 配 置 ， 使 用 数据 中 心 资 源 执行 集体 Web 服务 或 分 布 式 应 用 。 云 平台 根据 配置 或 移 除 服 
务 器 、 软 件 和 数据 库 资 源 动态 形成 。 云 服务 器 可 以 是 物理 机 器 或 虚拟 机 。 用 户 接口 被 用 于 请 求 服 
务 ， 配 置 工具 对 云 系统 进行 了 拓展 ， 以 发 布 请 求 的 服务 。 

除了 构建 服务 器 集群 外 ， 云 平台 还 需要 分 布 式 存储 及 相关 服务 。 云 计算 资源 被 构建 到 数据 
中 心 ， 通常 属于 第 三 方 提供 商 并 由 其 操作 ， 客 户 不 需要 知道 底层 技术 。 在 云 中 ， 软 件 成 为 一 种 服 
务 。 云 需要 对 从 数据 中 心 获 取 的 大 量 数据 给 予 高 度 信 任 。 我 们 需要 构建 一 个 框架 来 处 理 存储 在 
存储 系统 中 的 大 量 数据 ， 这 需要 一 个 在 数据 库 系 统 之 上 的 分 布 式 文件 系统 。 其 他 云 资源 被 加 到 
云 平台 中 ,包括 SAN (Storage Area Network ， 存 储 区 域 网 络 ) 、 数 据 库 系 统 、 防 火 墙 和 安全 设备 。 
为 使 开发 者 可 以 利用 互联 网 云 ，Web 服务 提供 商 提供 了 特定 API。 监 视 和 计量 单元 用 于 跟踪 分 配 
资源 的 用 途 和 性 能 。 l 
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云 平台 从 多 个 数据 中 心 配 置 虚拟 计算 、 存 储 和 网 络 
资源 以 及 软件 和 数据 集 来 满足 多 租户 应 用 的 需求 
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信任 授权 、 信 誉 系统 、 
为 保护 数据 中 心 提供 的 
资源 的 数据 染色 


图 4-14 在 提供 商 提供 的 数据 中 心服 务 器 上 使 用 大 量 虚拟 机 集群 、 存 储 和 网 络 资源 构建 的 安全 感 
知 云 平台 

iż: W K. Hwang 和 D. Lil36] 444, 2010, 

云 平台 的 软件 基础 设施 必须 管理 所 有 资源 并 自动 维护 大 量 任务 。 软 件 必 须 探测 每 个 进入 和 
离开 的 节点 服务 器 的 状态 ， 并 执行 相关 任务 。 云 计算 提供 商 〈 如 谷歌 和 微软 ) 已 经 在 全 世界 构 
建 了 大 量 的 数据 中 心 。 每 个 数据 中 心 都 可 能 有 成 和 于 的 服务 器 ， 通 常 需要 仔细 选择 数据 中 心 的 位 
置 ， 以 降低 功 耗 和 制冷 成 本 。 因 此 ， 数 据 中 心 常 被 建 在 水 电站 旁边 。 与 绝对 速度 性 能 相 比 ， 云 的 
物理 平台 构建 者 更 关心 性 能 /价格 比 和 可 靠 性 问题 。 

通常 来 讲 ， 私 有 云 更 易于 管理 ， 公 有 云 更 易于 访问 。 云 开发 的 趋势 是 越 来 越 多 的 云 成 为 混合 
云 。 这 是 因为 许多 云 应 用 程序 必须 跨越 局 域 网 的 界限 。 我 们 必须 学 习 如 何 创 建 私有 云 和 如 何在 

开放 的 互联 网 上 与 公有 云 交 互 。 在 防护 所 有 云 类 型 的 操作 方面 ， 安 全 成 为 一 个 关键 问题 。 我 们 将 
会 在 下 面 的 章节 中 学 习 云 的 安全 和 隐私 问题 。 
4.3.2 层次 化 的 云 体系 结构 开发 

云 体系 结构 的 开发 有 如 下 三 层 : 基础 设施 层 、 平 台 层 和 应 用 程序 层 ， 如 图 4-15 所 示 。 这 三 
个 开发 展 使 用 云 中 分 配 的 经 虚拟 化 和 标准 化 的 硬件 与 软件 资源 实现 。 公 有 云 、 私 有 云 和 混合 云 
提供 的 服务 通过 互联 网 和 局 域 网 上 的 网 络 支持 传递 给 用 户 。 显 然 ， 首 先 部 署 基础 设施 层 来 支持 
TaaS 服务 。 基 础 设施 层 是 为 支持 Paas 服务 构建 云 平 台 层 的 基础 。 平 台 层 是 为 Saas 应 用 而 实现 应 
用 层 的 基础 。 不 同类 型 的 云 服 务 分 别 需 要 这 些 不 同 资源 的 应 用 。 

基础 设施 层 使 用 虚拟 化 计算 、 存 储 和 网 络 资源 构建 而 成 。 这 些 硬 件 资源 的 抽象 意味 着 为 用 
户 提 供 其 所 需 的 灵活 性 。 从 内 部 来 看 ， 虚 拟 化 实现 了 自动 分 配 资源 ， 优 化 了 基础 设施 管理 进程 。 
平台 层 是 为 通用 目的 和 重复 使 用 软件 资源 。 该 层 为 用 户 提 供 了 一 个 开发 应 用 程序 、 测 试 操 作 流 、 
监视 程序 执行 结果 和 性 能 的 环境 。 该 平台 应 该 确保 用 户 具 有 可 扩展 性 、 可 靠 性 和 安全 性 保护 。 在 
这 种 方式 下 ， 虚 拟 化 的 云 平台 作为 一 个 系统 中 间 件 处 于 云 的 基础 设施 和 应 用 层 之 间 。 

应 用 程序 层 由 SaaS 应 用 所 需 的 所 有 软件 模块 集合 构成 。 该 层 的 服务 应 用 程序 包括 每 天 的 办 
公 管 理工 作 ， 如 信息 检索 、 文 档 处 理 和 日 历 与 认证 服务 。 应 用 层 通常 会 被 如 下 领域 频繁 使 用 : 商 
业 市 场 和 销售 企业 、 消 费 者 关系 管理 (Consumer Relationship Management，CRM) 、 金 融 交 易 和 供 
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应 链 管理 。 需 要 注意 的 是 ， 并 不 是 所 有 的 云 服务 都 会 被 限制 到 一 层 ， 许 多 应 用 可 能 使 用 混合 层 的 
资源 。 毕 竟 ， 这 三 层 相互 依赖 ， 从 底 至 上 构建 而 成 。 
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物理 和 虚拟 化 云 资 源 的 分 配 


is 
应 用 程序 层 (SaaS) 
LI 


iB (PaaS) 


LI 











基础 设施 层 ( IaaS、HaaS 和 DaaSs 等 ) 
图 4-15 用 于 互联 网 上 IaaS、Paas 和 SaaS 应 用 的 云 平 台 的 层次 化 体系 结构 开发 


从 提供 商 的 角度 来 看 ,不同 层 的 服务 需要 不 同 量 的 功能 支持 和 提供 商 的 资源 管理 。 通 常 来 
HE, SaaS 需要 提供 商 的 工作 最 多 ，PaaS BH, laS 需要 的 最 少 。 例 如 ， 亚 马 逊 的 EC2 不 仅 为 用 
户 提供 虚拟 化 的 CPU 资源 ， 而 且 也 管理 分 配 的 资源 。 应 用 程序 层 的 服务 需要 提供 商 的 工作 更 多 。 
这 方面 的 典型 例子 是 Salesforce. com 的 CRM 服务 ， 其 中 提供 商 不 仅 提 供 底层 的 硬件 和 上 层 的 软 
件 ， 还 提供 开发 与 监视 用 户 应 用 程序 的 平台 和 软件 工具 。 

4.3.2.1 面向 市 场 的 云 体系 结构 

由 于 消费 者 需要 云 提供 商 满 足 他 们 较 多 的 计算 需求 ， 为 了 满足 目标 和 保持 他 们 的 操作 ， 他 
们 将 需要 QoS 的 一 个 特定 层 ， 该 层 由 提供 商 维护 。 云 提供 商 考虑 满足 每 个 独立 消费 者 的 不 同 QoS 
参数 ， 这 些 参 数 与 特定 SLA 中 所 协商 的 一 致 。 为 了 达到 此 目的 ， 提 供 商 不 能 部 署 传 统 的 、 以 系 
统 为 中 心 的 资源 管理 体系 结构 ; 相反 ， 必 须 使 用 面向 市 场 的 资源 管理 来 调节 云 资 源 的 供应 ， 以 达 
到 供需 之 间 的 市 场 平衡 。 

设计 者 需要 向 客户 和 提供 商 提 供 经 济 刺激 反馈 。 面 向 市 场 的 云 体系 结构 的 目的 是 推进 基于 
QoS 的 资源 分 配 机 制 。 除 此 之 外 ， 客 户 可 以 从 提供 商 的 潜在 成 本 缩减 中 获 益 ， 这 将 会 导致 一 个 更 
具 竞 争 力 的 市 场 ， 从 而 引起 价格 的 下 降 。 图 4-16 显示 了 在 云 计算 环境 中 支持 面向 市 场 的 资源 分 
配 的 高 层 体系 结构 。 这 个 云 主 要 由 下 面 的 实体 构成 。 

用 户 或 中 介 (broker) 根据 用 户 行为 从 世界 的 任何 位 置 向 数据 中 心 和 云 提交 服务 请 求 。SLA 
资源 分 配 者 作为 接口 处 于 数据 中 心 / 云 服务 提供 商 和 外 部 的 用 户 / 中 介 之 间 。 它 需要 下 面 机 制 的 
交互 来 支持 面向 SLA 的 资源 管理 。 当 一 个 服务 请 求 首先 被 提交 时 ， 服 务 请 求 检 查 者 会 在 决定 接 
受 或 拒绝 请 求 前 ， 首 先 根据 QoS 需求 解释 提交 的 请 求 。 

由 于 资源 有 限 ， 许 多 服务 请 求 不 能 被 满足 ， 因 此 请 求 检 查 者 需要 确保 没有 资源 过 载 的 情况 。 
为 了 使 资源 分 配 决 策 更 为 有 效 ， 考 虑 到 资源 可 用 性 〈 来 自 虚 拟 机 监视 机 制 ) 和 负载 处 理 (来 自 
服务 请 求 监 视 机 制 ) ， 也 需要 最 新 的 状态 信息 。 然 后 ， 为 虚拟 机 分 配 请 求 ， 并 为 这 些 虚拟 机 确定 
资源 级 别 。 
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图 4-16 面向 市 场 的 云 体系 结构 ， 可 以 根据 用 户 QoS/ 需 求 变化 扩大 / 减 小 资源 分 配 


定价 机 制 决 定 如 何 为 服务 请 求 付 费 。 例 如 ， 请 求 可 以 基于 提交 时 间 (高 峰 期 或 非 高 峰 期 )、 
定价 利率 或 资源 可 用 性 (供需 ) 付费 。 在 有 效 优化 资源 分 配 中 ， 定 价 成 为 管理 数据 中 心中 计算 
资源 和 设施 供需 的 基础 。 核 算 机 制 通过 请 求 维护 了 资源 的 实际 使 用 情况 ， 可 以 计算 最 终 成 本 并 
向 用 户 收费 。 除 此 之 外 ， 服 务 请 求 检 查 者 和 管理 控制 机 制 可 以 利用 被 维护 的 历史 使 用 信息 来 改 
进 资 源 分 配 。 

虚拟 机 监视 器 机 制 跟踪 虚拟 机 的 可 用 性 及 其 资源 级 别 。 分 配 者 机 制 在 分 配 的 虚拟 机 上 执行 
接收 到 的 服务 请 求 ， 服 务 请 求 监视 器 机 制 跟 踪 服 务 请 求 的 执行 过 程 。 为 满足 接收 的 服务 请 求 ， 在 
一 台 单 一 物理 机 器 上 的 多 个 虚拟 机 可 以 根据 需要 启动 或 停止 ， 因 此 为 满足 服务 请 求 的 不 同 需求 ， 
在 相同 的 物理 机 器 上 配置 不 同 分 区 的 资源 提供 了 最 大 的 灵活 性 。 除 此 之 外 ， 由 于 同一 台 物 理 机 
器 上 的 不 同 虚 拟 机 相互 隔离 ， 多 个 虚拟 机 可 以 在 一 个 物理 机 器 上 基于 不 同 的 操作 系统 环境 并 行 
运行 应 用 程序 。 

4.3.2.2 服务 质量 因素 

数据 中 心 由 多 个 计算 服务 器 组 成 ， 这 些 服 务 器 提供 资源 来 满足 服务 需求 。 云 作为 一 种 商业 
的 发 行 ， 为 能 够 在 其 中 可 以 进行 公司 的 重要 商业 操作 ， 需 要 在 服务 请 求 中 考虑 关键 的 QoS 参数 ， 
如 时 间 、 成 本 、 可 靠 性 和 信任 /安全 。 特 别 地 ， 由 于 商业 操作 和 操作 环境 的 不 断 变化 ，QoS 需求 
不 能 是 静态 的 ， 应 该 可 以 随 着 时 间 而 改变 。 简 而 言 之 ， 由 于 他 们 为 云 的 访问 服务 付费 ， 客 户 更 为 
重要 。 除 此 之 外 ， 针 对 在 参与 者 和 为 多 个 竞争 请 求 自动 分 配 资源 的 机 制 之 间 动 态 协 商 SLA， 流 行 
的 云 计算 没有 支持 或 只 有 有 限 的 支持 。 协 商机 制 应 该 能 响应 确立 SLA 的 替换 发 行 协议 所 。 

商业 的 云 发 行 必 须 能 够 基于 客户 配置 和 请 求 的 服务 需求 支持 客户 驱动 的 服务 管理 。 商 业 云 
根据 服务 器 请 求 和 客户 需要 定义 了 计算 的 风险 管理 策略 ， 以 鉴别 、 评 价 和 管理 应 用 程序 执行 过 
程 中 的 风险 。 云 也 产生 一 个 合适 的 基于 市 场 的 资源 管理 策略 ， 包 括 客户 驱动 的 服务 器 管理 和 计 
算 的 风险 管理 ， 来 维护 面向 SLA 的 资源 分 配 。 系 统 引 人 自动 的 资源 管理 模型 ， 可 以 有 效 地 自 管 
理 服务 需求 的 变化 ， 利 用 虚拟 机 技术 根据 服务 需求 动态 分 配 资源 配额 以 满足 新 服务 请 求 和 已 有 
的 服务 职责 。 


4. 3.3 虚拟 化 支持 和 灾难 恢复 
云 计算 基础 设施 的 一 个 显著 特征 是 系统 虚拟 化 的 使 用 和 对 分 配 工具 的 修改 。 一 个 共享 集群 
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上 的 服务 器 的 虚拟 化 可 以 合并 Web 服务 。 由 于 虚拟 机 是 云 服 务 的 集 装 器 ， 在 将 服务 调度 到 虚拟 
节点 上 运行 之 前 ， 分 配 工具 将 会 首先 查找 相应 的 物理 机 器 并 为 那些 节点 部 署 虚拟 机 。 

除 此 之 外 ， 在 云 计 算 中 ， 虚 拟 化 也 意味 着 资源 和 基本 的 基础 设施 是 虚拟 化 的 。 用 户 将 不 
关心 用 来 提供 服务 的 计算 资源 。 云 用 户 无 需 知 道 、 也 没有 途径 发 现 包 括 在 处 理 服务 请 求 中 的 
物理 资源 。 而 且 ， 应 用 程序 开发 者 也 不 关心 一 些 基础 设施 问题 ， 例 如 可 伸缩 性 和 容错 性 ， 他 
们 只 需 关 心服 务 的 逻辑 。 图 4-17 所 示 是 为 实现 特定 云 应 用 ， 虚 拟 化 数据 中 心中 服务 器 所 需要 
的 基础 设施 。 


基础 设施 服务 


镜像 管理 | | 系统 管理 | | ”用户 管理 | | 系统 配置 


虚拟 化 的 基础 设施 
虚拟 化 的 集成 管理 器 





图 4-17 构建 云 平台 的 虚拟 化 的 服务 器 、 存 储 和 网 络 

注 ; 由 东南 大 学 的 秦 中 元 副教授 提供 。 

4.3.3.1 硬件 虚拟 化 

在 许多 云 计 算 系 统 中 ， 虚 拟 化 软件 用 来 虚拟 化 硬件 。 系 统 虚拟 化 软件 是 一 种 特殊 类 型 的 软 
件 ， 它 模拟 硬件 的 执行 并 在 其 上 运行 未 经 修改 的 操作 系统 。 云 计算 系统 使 用 虚拟 化 软件 作为 遗 
产 软件 (如 旧 操 作 系 统 或 罕见 应 用 ) 的 运行 环境 。 虚 拟 化 软件 也 被 用 作 开 发 新 的 云 应 用 的 平台 ， 
在 其 上 ， 开 发 者 可 以 使 用 他 们 偏好 的 任何 操作 系统 和 编程 环境 。 现 在 ， 开 发 环境 和 部 署 环境 可 以 
一 样 ， 消 除了 一 些 运 行 时 的 问题 。 

一 些 云 计 算 的 提供 商 已 开始 使 用 虚拟 化 技术 为 开发 者 提供 服务 。 如 前 所 述 ， 系 统 虚 拟 化 软 
件 可 被 看 做 是 一 种 硬件 模拟 机 制 ， 可 以 在 系统 虚拟 化 软件 上 不 经 修改 地 直接 运行 之 前 运行 在 裸 
机 上 的 操作 系统 。 表 4-4 列举 了 一 些 直 至 目前 正在 广泛 使 用 的 系统 虚拟 化 软件 。 当 前 ， 虚 拟 机 安 
装 在 云 计算 平台 上 ， 主 要 用 于 托管 第 三 方程 序 。 虚 拟 机 提供 了 灵活 的 运行 时 服务 ， 用 户 获得 解 
放 ， 不 需要 再 担心 系统 环境 。 
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#4-4 ” 计算、 存储 和 网 络 云 中 的 虚拟 化 资源 1 
E 供 商 AWS 微软 Azure GAE 


预定 义 的 Python 应 用 


| 由 声明 性 描述 所 分 配 的 | 程序 框架 处 理 器 ， 自 动 
RYH SAAR | 公共 语言 运行 时 虚拟 机 | 伸缩 与 Web 应 用 不 一 


(如 RightScale) 提供 可 扩展 性 致 的 服务 器 故障 切换 





使 用 服务 器 虚 
拟 集群 的 计算 云 


虚拟 存储 的 存 块 存储 模型 (EBS) 和 放大 的 键 /对 SQL 数据 服务 (SQL 服 
储 云 象 存储 (SimpleDB)， 从 EBS 到 全 自动 | 务 器 的 限制 视图 ) Azure MegaStore/BigTable 
cal (SimpleDB, S3) 的 自动 伸缩 存储 服务 


声明 性 的 IP 级 拓扑 ， 隐 藏 的 放置 细 用 户 声明 性 描述 的 自主 固定 拓扑 引入 三 层 
网 络 云 服务 节 ， 安 全 组 限制 通信 ， 可 用 性 区 域 隔 离 | 性 或 者 应 用 程序 组 件 的 | Web 应 用 结构 ， 伸 缩 是 


网 络 故障 ， 应 用 的 弹性 IP 角色 | 自动 且 程 序 员 不 可 见 的 


在 云 计 算 平台 中 使 用 虚拟 机 确保 了 用 户 的 极度 灵活 性 。 由 于 许多 用 户 共享 计算 资源 ， 一 种 
方法 是 最 大 化 用 户 特权 并 保持 他 们 相互 之 间 的 安全 隔离 。 传 统 的 集群 资源 共享 依赖 于 系统 的 用 
户 和 组 机 制 ， 这 样 的 共享 并 不 灵活 ， 用 户 不 能 为 他 们 的 特定 目标 定制 应 用 ， 操 作 系统 不 能 改变 ， 
分 离 也 不 完全 ， 并 且 满 足 一 个 用 户 需求 的 环境 常常 不 能 满足 另 一 个 用 户 。 虚 拟 化 允许 用 户 在 保 
持 各 自 独 立 的 情况 下 具有 完全 的 特权 。 

用 户 具 有 访问 他 们 自己 虚拟 机 的 完全 权限 ， 与 其 他 用 户 的 虚拟 机 完全 独立 。 多 个 虚拟 机 可 
以 被 挂 载 在 同一 个 物理 服务 器 上 。 不 同 虚拟 机 可 能 运行 不 同 的 操作 系统 。 我 们 也 需要 建立 虚拟 
机 所 需 的 虚拟 磁盘 存储 和 虚拟 网 络 。 虚 拟 化 资源 形成 一 个 资源 池 。 虚 拟 化 由 一 个 被 指定 用 来 产 
生 虚 拟 化 资源 池 的 特殊 服务 器 执行 。 虚 拟 化 的 基础 设施 (中 间 的 黑 框 ) 由 许多 虚拟 化 的 集成 管 
理 器 构成 。 这 些 管 理 器 处 理 负载 、 资 源 、 安 全 、 数 据 和 分 配 函 数 。 图 4-18 显示 了 两 个 虚拟 机 平 
台 。 每 个 平台 执行 一 个 用 户 作业 的 虚拟 方法 。 所 有 的 云 服 务 被 上 层 的 框 所 管理 。 
























eS 2 = > > 
配置 硬件 安装 操 配置 操 安装 备 开始 单 步骤 
作 系 统 作 系 统 份 代理 的 自动 恢复 
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223 图 4-18 “与 从 在 线 迁 移 的 虚拟 机 恢复 相 比 ， 传 统 灾难 恢复 机 制 的 恢复 开销 


4.3.3.2 公有 云 的 虚拟 化 支持 

Armbrust 等 人 中 评估 了 表 4-4 中 三 个 公有 云 对 虚拟 化 的 支持 : AWS、 微 软 Azure 和 GAE, 
AWS 为 用 户 执 行 其 应 用 程序 提供 了 极度 的 灵活 性 ; GAE 为 用 户 基 于 谷歌 提供 的 服务 构建 应 用 提 
供 了 受 限 的 应 用 程序 级 虚拟 化 ; 微软 为 用 户 构 建 应 用 程序 提供 了 编程 级 虚拟 化 (. NET 虚拟 化 ) 。 

VMware 工具 用 于 工作 站 、 服 务 器 和 虚拟 基础 设施 ， 微 软 工 具 用 于 PC 和 其 他 特殊 的 服务 器 
E, XenEnterprise 工具 只 能 用 在 基于 Xen 的 服务 器 上 。 每 个 人 都 对 云 很 感 兴趣 ， 整 个 开 工业 正 
在 向 云 逐 渐 迈 进 。 虚 拟 化 导致 了 高 可 用 性 、 灾 难 恢复 、 动 态 负 载 水 平 测量 和 丰富 的 配置 支持 。 云 
计算 和 效用 计算 都 利用 了 虚拟 化 的 优势 来 提供 可 伸缩 的 、 自 动 的 计算 环境 。 

4.3.3.3 绿色 数据 中 心 的 存储 虚拟 化 

美国 的 开 能 耗 已 经 翻 倍 ， 达 到 了 整个 国家 能 源 消耗 的 3% 。 国 家 的 大 量 数据 中 心 都 一 定 
程度 地 促进 了 能 源 危 机 。《 财 富 》500 强 中 一 半 以 上 的 公司 正在 实现 新 的 公司 能 源 策略 。 近 年 
X, IDC 和 Gartner 的 一 些 研 究 调 查 确认 了 如 下 事实 ， 即 虚拟 化 在 降低 物理 计算 系统 能 耗 方面 
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对 成 本 降低 具有 重要 影响 。 这 个 令 人 担忧 的 情况 使 得 IT 工业 正在 对 能 源 越 来 越 敏感 。 替 代 能 
源 的 发 展 较为 缓慢 ， 这 也 使 得 在 所 有 计算 机 上 节约 能 耗 的 需求 越 来 越 急迫。 已 经 证 明 虚 拟 化 
和 服务 器 合并 在 这 个 方面 较为 便利 。 绿 色 数 据 中 心 和 存储 虚拟 化 的 优势 被 认为 可 以 进一步 加 
强 绿色 计算 的 效果 。 

4.3.3.4 Iaas 的 虚拟 化 

虚拟 机 技术 增加 了 普遍 性 。 这 使 得 用 户 能 够 在 云 计 算 的 物理 基础 设施 之 上 创建 定制 的 环境 。 
在 云 中 使 用 虚拟 机 具有 如 下 显著 优势 : (1) 系统 管理 员 可 以 将 未 充分 利用 的 服务 器 的 负载 合并 
到 较 少 的 服务 器 上 ; (2) 虚拟 机 可 以 在 不 需要 其 他 API 干涉 的 情况 下 运行 遗产 (legacy) 代码 ; 
(3) 虚拟 机 可 以 通过 创建 沙 盒 运 行 不 可 信 的 应 用 程序 来 改进 系统 安全 性 ; (4) 通过 应 用 性 能 隔 
离 ， 虚 拟 化 的 云 平台 可 以 让 提供 商 为 客户 应 用 程序 提供 一 些 保证 和 更 好 的 QoS, 

4.3.3.5 用 在 灾难 恢复 中 的 虚拟 机 克隆 

虚拟 机 技术 需要 高 级 的 灾难 恢复 机 制 。 一 种 机 制 是 使 用 一 台 物 理 机 器 来 恢复 另 一 台 物 理 机 
器 ; 第 二 种 机 制 是 使 用 另 一 台 虚 拟 机 来 恢复 虚拟 机 。 如 图 4-18 顶层 的 时 间 线 所 示 ， 传 统 的 灾难 
恢复 中 ， 从 一 台 物 理 机 器 恢复 另 一 台 物 理 机 器 非常 缓慢 ， 并 且 复 杂 、 昂 贵 ， 整 个 恢复 时 间 由 硬件 
配置 、 安 装 和 配置 操作 系统 、 安 装备 份 代理 、 漫 长 的 重启 物理 机 器 等 时 间 构 成 。 在 恢复 虚拟 机 平 
台 时 ， 操 作 系 统 和 备份 代理 的 安装 与 配置 时 间 可 以 消除 ， 因 此 ， 灾 难 恢复 时 间 更 得 ， 其 中 大 约 
40% 的 时 间 用 来 恢复 物理 机 器 。 虚 拟 化 通过 封装 虚拟 机 对 快速 灾难 恢复 大 有 帮助 。 

我 们 在 第 2 章 和 第 3 章 讨论 了 灾难 人 恢复， 虚拟 机 克隆 提供 了 一 种 有 效 的 解决 方法 。 基 本 思想 
是 在 远程 服务 器 上 为 本 地 服务 器 上 的 每 台 虚 拟 机 创建 一 个 克隆 。 在 所 有 克隆 的 虚拟 机 中 ， 只 需 
要 有 一 台 虚 拟 机 处 于 活路 状态， 远程 虚拟 机 应 处 于 挂 起 状态 。 云 控制 中 心 应 该 在 原始 虚拟 机 失 
效 时 激活 其 相应 的 克隆 虚拟 机 ， 并 为 虚拟 机 创建 一 个 快照 ， 使 其 能 在 很 短 时 间 内 完成 在 线 迁移 。 
被 迁移 的 虚拟 机 可 以 运行 在 一 个 共享 的 互联 网 连接 上 。 只 有 被 更 新 的 数据 和 被 修改 的 状态 发 送 
给 挂 起 的 虚拟 机 用 于 更 新 其 状态 。RPO (Recovery Property Objective) 和 RTO ( Recovery Time 
Objective) 会 受 快照 数目 的 影响 。 在 虚拟 机 迁移 过 程 中 需要 保证 虚拟 机 的 安全 性 。 
4.3.4 体系 结构 设计 挑战 

本 节 将 描述 云 体系 结构 开发 所 面临 的 6 个 开放 性 的 挑战 。Ambrust 等 人 中 已 经 提出 这 些 问 题 
既是 障碍 也 是 机 遇 。 下 面 会 针对 这 些 挑 战 的 一 些 看 似 合理 的 解决 方法 进行 简 述 。 

4.3.4.1 挑战 1: 服务 可 用 性 和 数据 锁定 问题 

由 单一 公司 管理 云 服 务 常 常会 成 为 单 点 失效 的 来 源 。 为 了 获得 高 可 用 性 ， 我 们 可 以 考虑 使 
用 多 个 云 提供 商 。 即 使 公司 有 多 个 位 于 不 同 地 理 位 置 的 数据 中 心 ， 它 们 也 可 能 具有 公共 的 软件 
基础 设施 和 核算 系统 。 因 此 ， 使 用 多 个 云 提 供 商 可 能 会 提供 更 好 的 故障 保护 。 另 一 个 可 用 性 障碍 
是 分 布 式 拒 绝 服 务 (Distributed Denial of Service , DDoS) 攻击 。 通 过 使 它们 的 服务 不 可 用 ， 犯 罪 
威胁 切断 了 SaaS 提供 商 的 收入 。 一 些 效 用 计算 服务 通过 快速 扩容 为 Saas 提供 商 防 御 DDoS 攻击 
提供 机 会 。 

软件 栈 改 进 了 不 同 云 平台 的 互 操 作 性 ,但 API 自己 仍 属 专 有 技术 。 因 此 ， 客 户 不 能 轻易 地 从 
一 个 站 点 抽取 数据 和 程序 使 之 运行 在 另 一 个 站 点 上 。 一 种 显而易见 的 解决 方法 是 标准 化 API, fE 
得 SaaS 开发 者 能 够 通过 多 个 云 提 供 商 部 署 服务 和 数据 。 这 可 以 解决 因 某 一 家 公司 的 故障 而 引起 
的 数据 丢失 损失 。 除 了 可 以 缓解 数据 锁定 问题 以 外 ，API 的 标准 化 还 促进 了 新 的 应 用 模型 的 诈 
生 ， 其 中 相同 的 软件 基础 设施 可 以 用 在 公有 云 和 私有 云 中 。 这 样 的 选择 使 得 超人 负荷 计算 成 为 可 
能 ,其 中 当 撒 获 到 不 能 轻易 运行 在 私有 云 数据 中 心 的 任务 时 ,会 使 用 公有 云 。 

4.3.4.2 挑战 2: 数据 隐私 和 安全 性 考虑 

当前 的 云 发 行 版 基本 是 公有 网 络 (而 不 是 私有 网 络 ) ， 将 系统 暴露 给 了 更 多 的 攻击 。 许 多 障 
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碍 可 以 使 用 极 易 理解 的 技术 (如 加 密 存 储 、 虚 拟 LAN 和 网 络 中 间 体 (如 防火 墙 、 包 过 滤器 ) 
等 ) 快速 克服 。 例 如 ， 在 把 数据 放 入 云 之 前 应 首先 加 密 数 据 。 许 多 国家 制定 了 法 律 ， 要 求 SaaS 
提供 商 只 能 在 本 国内 保留 客户 数据 和 具有 版 权 性 的 材料 。 

传统 的 网 络 攻击 包括 缓冲 溢出 、Dos 攻击 、 间 谍 软 件 、 恶 意 软 件 、 后 门 (rootkit), KERM 
虫 。 在 云 环境 中 ， 新 的 攻击 可 能 来 自 于 hypervisor 恶意 软件 、 客 户 虚拟 机 跳跃 和 支持 或 者 虚拟 机 

235 | 后 门 ， 另 一 类 攻击 是 在 虚拟 机 迁移 中 的 中 间 人 攻击 。 通 常 来 讲 ， 被 动 攻击 会 窃取 敏感 数据 和 密 
码 ， 主 动 攻击 则 可 能 会 操控 内 核 数 据 结构 ， 对 云 服务 器 造成 严重 损害 。 我 们 将 会 在 4. 5 节 学 习 云 
中 的 所 有 安全 和 隐私 问题 。 

4.3.4.3 挑战 3: 不 可 预测 的 性 能 和 瓶颈 

在 云 计算 中 ， 多 个 虚拟 机 可 以 共享 CPU 和 主 存 , 但 Y0 共享 还 存在 问题 。 例 如 。 在 一 个 运 
行 了 75 个 EC2 实例 的 环境 中 ， 使 用 STREAM 基准 测试 程序 要 求 平 均 带宽 为 1355 MB/s。 然 而 ， 
对 75 个 EC2 实例 的 每 个 实例 来 讲 ， 向 本 地 磁盘 写 1 GB 文件 需要 的 平均 磁盘 写 带宽 仅 为 55 MB/s, 
这 说 明了 虚拟 机 之 间 的 IO 干扰 问题 。 一 种 解决 方法 是 改进 VO 体系 结构 和 操作 系统 来 有 效 地 虚 
拟 化 中 断 与 IO 通道 。 

网 络 应 用 程序 对 数据 变 得 更 为 敏感 。 如 果 我 们 假定 应 用 程序 会 跨越 云 边界 ， 则 可 能 使 数据 
的 放置 和 传送 变 得 复杂 。 如 果 想 要 最 小 化 成 本 ， 云 用 户 和 提供 商 不 得 不 在 系统 的 每 一 级 都 考虑 
数据 放置 和 流量 问题 。 因 此 ， 必 须 移 除数 据 传输 瓶颈 ， 必 须 拓宽 瓶颈 链 ， 应 该 移 走 较 弱 的 服务 
器 。 我 们 会 在 第 8 章 研究 性 能 问题 。 

4.3.4.4 WRA: 分 布 式 存储 和 广泛 存在 的 软件 故障 

在 云 应 用 中 ， 数 据 库 一 直 在 不 断 地 增长 。 机 会 是 建立 一 个 存储 系统 ， 这 个 系统 不 仅 满足 数据 
库 的 增长 ， 也 能 与 云 在 任意 按 需 缩放 方面 的 优势 进行 结合 。 这 要 求 设计 有 效 的 分 布 式 SAN。 数 据 
中 心 必须 满足 程序 员 在 可 扩展 性 、 数 据 持 久 性 和 高 可 用 人 性 等 方面 的 期 望 。 在 通过 SAN 连接 的 数 
据 中 心中 ， 数 据 一 致 性 检查 是 云 计算 面临 的 一 个 主要 挑战 。 

大 规模 分 布 式 bug 不 能 被 重新 产生 ， 因 此 ， 调 试 必 须 以 一 定 规模 出 现在 生产 数据 中 心 。 没 有 
数据 中 心 会 提供 这 种 便利 。 一 种 解决 方法 是 在 云 计 算 中 使 用 虚拟 机 。 利 用 虚拟 化 ， 我 们 可 能 捕捉 
到 有 价值 的 信息 ， 而 这 种 方式 没有 虚拟 机 是 无 法 实现 的 。 如 果 模 拟 器 设计 得 非常 好 ， 那 么 在 模拟 
器 上 进行 调试 是 解决 这 个 问题 的 另外 一 种 方法 。 

4.3.4.5 BRS: 云 可 扩展 性 、 互 操作 性 和 标准 化 

即 用 即 付 的 模式 可 以 用 在 存储 和 网 络 带宽 方面 ， 它 们 都 是 用 字 节 数 来 计数 。 根 据 虚 拟 化 级 
别 的 不 同 ， 计 算 也 不 同 。GAE 根据 负载 的 增 减 自动 缩放 ， 用 户 根据 使 用 的 周期 付费 ，AWS 根据 
使 用 的 虚拟 机 实例 数目 按 小 时 付费 ， 即 使 机 器 空闲 。 为 了 节约 成 本 ， 在 不 违反 SLA 的 情况 下 ， 
可 以 根据 负载 的 变化 进行 快速 缩放 。 

OVF (Open Virtualization Format ， 开 放 虚 拟 化 格式 ) 为 虚拟 机 封装 和 发 布 描述 了 一 个 开放 
的 、 安 全 的 、 可 移植 的 、 有 效 的 和 可 扩展 的 格式 。 它 也 为 发 布 部 署 在 虚拟 机 中 的 软件 定义 了 格 
式 。 该 虚拟 机 格式 不 依赖 于 特定 的 主机 平台 、 虚 拟 化 平台 或 客户 操作 系统 。 该 方法 是 使 用 封装 软 

[226] 件 的 认证 和 完整 性 解决 虚拟 平台 透明 的 打包 问题 。 包 支持 虚拟 装置 跨越 一 个 以 上 虚拟 机 。 

OVF 也 定义 了 虚拟 机 模板 的 传输 问题 ， 可 以 用 在 处 于 不 同 虚拟 化 级 别 的 不 同 虚拟 化 平台 上 。 
为 了 云 的 标准 化 ， 虚 拟 装置 需要 能 运行 在 任何 虚拟 平台 上 。 要 使 虚拟 机 能 运行 在 异 构 的 硬件 平 
G hypervisor 上 ， 这 也 要 求 hypervisor 透明 的 虚拟 机 。 而 且 要 在 x86 Intel #1 AMD 技术 之 间 实 现 跨 
平台 的 在 线 迁 移 ， 并 支持 遗产 硬件 的 负载 均衡 。 所 有 这 些 问题 仍 有 待 进一步 研究 。 

4.3.4.6 挑战 6; 软件 许可 和 信誉 共享 

许多 云 计 算 提供 商 最 初 依 赖 于 开源 软件 ， 因 为 商业 软件 的 许可 证 模型 对 效用 计算 并 不 理想 。 
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幸好 开源 软件 很 流行 ,商业 软 件 公 司 简单 地 改变 它们 的 许可 证 结构 就 可 以 更 好 地 适应 云 计算 。 
我 们 可 以 考虑 按 需 付费 (pay-for-use) 和 大 量 使 用 (bulk-use〉 的 许可 模式 来 拓宽 商业 应 用 的 覆 
盖 范 围 。 

客户 的 糟糕 行为 会 影响 整个 云 系 统 的 信誉 。 例 如 ， 通 过 垃圾 邮件 阻止 服务 列 出 的 EC2 IP 地 
址 黑 名 单 可 能 会 影响 虚拟 机 的 流畅 安装 。 一 种 解决 方法 是 创建 信誉 守护 服务 ， 类 似 于 为 当前 托 
管 在 小 ISP 上 的 服务 提供 的 “可 信 的 E-mail” 服务 。 另 一 个 法 律 问题 是 关于 法 律 责 任 的 传递 。 云 
提供 商 想 要 客户 保留 一 些 法 律 责任 ， 或 者 相反 。 这 个 问题 必须 在 SLA 级 解决 。 我 们 将 会 在 下 一 
节 学 习 用 于 保护 数据 中 心 的 信誉 系统 。 


4.4 公有 云 平台 : GAE、AWS 和 Azure 


本 节 将 回顾 4 个 商业 上 可 用 的 云 平 台 的 系统 体系 结构 。 这 些 案例 是 读者 学 习 后 续 章 节 的 预备 
材料 。 
4.4.1 公有 云 及 其 服务 选项 

云 服务 被 计算 和 IT 管理 员 、 软 件 厂 商 和 终端 用 户 所 需要 。 图 4-19 介绍 了 云 的 5 个 使 用 层次 。 
在 顶层 ， 个 人 用 户 和 组 织 用 户 请 求 的 服务 非常 不 同 。Saas 层 的 应 用 程序 提供 商 主要 服务 个 人 用 
户 。 大 部 分 商业 组 织 由 IaaS 和 PaaS 提供 服务 。IaaS 为 应 用 程序 和 组 织 用 户 提供 计算 、 存 储 和 通 
信 资 源 。 云 环境 由 PaaS 或 平台 提供 商定 义 。 需 要 注意 的 是 ,平台 提供 商 直 接 支持 基础 设施 服务 


和 组 织 用 户 。 


应 用 程序 提供 商 ( Saas ) 


云 平台 提供 商 〈Paas ) 
云 服 务 提 供 商 ( IaaS ) 
软件 提供 商 。 


图 4-19 个 人 用 户 和 组 织 用 户 的 角色 及 其 在 不 同 的 云 服务 模型 下 与 云 提供 商 之 间 的 交互 


云 服务 依赖 于 机 器 虚拟 化 、SOA、 网 格 基 础 设施 管理 和 节能 方面 的 新 进展 。 客 户 购买 如 前 
所 述 的 IaaS, PaaS 或 SaaS 服务 。 而 且 ， 许 多 云 商家 会 向 大 量 用 户 出 售 增值 服务 。 云 产业 利用 许 
多 企业 和 商业 用 户 日 益 增 长 的 需求 ， 将 他 们 的 计算 和 存储 作业 外 包 给 更 专业 的 提供 商 。 提 供 商 
提供 的 服务 费用 通常 远 低 于 用 户 频 繁 更 换 上 废弃 的 服务 器 的 成 本 。 表 4-5 总 结 了 2010 年 间 5 个 主 
要 云 提供 商 的 资料 信息 。 ' 

亚马逊 在 同时 支持 上 百 万 的 客户 使 用 电子 商务 和 云 应 用 方面 是 laas AERE, DOH 
的 云 的 弹性 来 自 于 硬件 和 软件 服务 提供 的 灵活 性 。EC2 提供 了 按 需 运行 虚拟 服务 器 的 环境 ，S3 
提供 了 不 受 限制 的 在 线 存储 空间 。AWS 平台 同时 支持 EC2 和 S3。 微 软 为 云 应 用 提供 了 Azure Æ 
台 ， 它 也 支持 . NET 服务 、 动 态 CRM, Hotmail 和 SQL 应 用 。Salesforce. com 使 用 它 的 Force. com 
平台 为 在 线 CRM 应 用 提供 扩展 的 SaaS 应 用 。 

如 表 4-5 所 示 ， 所 有 的 IaaS, PaaS 和 SaaS 模型 允许 用 户 通过 互联 网 访问 服务 ， 完 全 依赖 于 
云 服务 提供 商 的 基础 设施 。 这 些 模型 基于 提供 商 和 用 户 之 间 不 同 的 SLA 被 提供 。SLA 在 网 络 服 
务 中 更 为 普遍 ， 因 为 它们 负责 网 络 服务 的 QoS 特征 。 对 云 计 算 服 务 而 言 ， 很 难 找到 一 个 协商 SLA 
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的 合理 的 先例 。 从 更 广泛 的 意义 来 讲 ， 云 计算 的 SLA 强调 服务 的 可 用 性 、 数 据 的 完整 性 、 隐 私 
和 安全 保护 。 表 中 的 空白 区 域 指 未 知 或 未 开发 的 特征 。 


表 4-5 5 个 主要 云 平台 及 其 服务 发 布 * 


a 型 IBM row 谷 K wm 软 Salesforce 
BlueCloud , 应 用 程序 引擎 


PaaS Windows Azure 


WCA, RC2 (GAE) Force. com 
TaaS Ensembles AWS 








Windows Azure 














SaaS Lotus Live Gmail, Docs - NET 服务， 动 在 线 CRM, 

















态 CRM Gifttag 
Re LE 
虚拟 化 NRAN 应 用 程序 容器 操作 系统 级 
en Hyper-V 
Beet SOA, B2, TSAM,| EC2, $3, $98, | j ah Seer Live, SQL Apex, visual force, 
RAD, Web 2.0 SimpleDB 18 abe, PE | Hotmail 记录 安全 


duce 











WebSphere2 和 为 PKI, VPN, M 安全 强制 的 重复 的 数据 ， 管理 或 记录 安 


安全 性 特征 | 保护 进行 调整 基于 规则 的 访问 | 全 ， 使 用 元 数 
的 PowerVM 故障 恢复 的 EBS Chubby 锁 控制 据 API 
用 户 接口 EC2 命令 行 基于 Web 的 管 Windows Azure 
































工具 理 控 制 台 门户 
Web API 是 是 是 是 是 
编程 支持 AMI Python . NET 框架 


注 : WCA: WebSphere CloudBurst Appliance; RC2 ; Research Compute Cloud; RAD; Rational Application Developer; SOA: 
Service-Oriented Architecture; TSAM: Tivoli Service Automation Manager; EC2; Elastic Compute Cloud; $3; Simple 
Storage Service; SQS: Simple Queue Service; GAE: Google App Engine; AWS: Amazon Web Services; SQL; Structured 
Query Language; EBS; Elastic Block Store; CRM; Consumer Relationship Management, 


4.4.2 谷歌 应 用 引擎 (GAE) 


谷歌 有 世界 上 最 大 的 搜索 引擎 设备 。 公 司 在 大 规模 数据 处 理 方面 具有 丰富 的 经 验 ， 这 使 得 
其 在 数据 中 心 设计 〈 见 第 3 章 ) 中 视点 新 颖 ， 且 其 提出 的 新 的 编程 模型 可 适应 的 规模 令 人 了 吃惊 。 
谷歌 平台 基于 它 的 搜索 引擎 专家 ， 如 前 所 述 的 MapReduce， 该 基础 设施 也 适用 于 许多 其 他 领域 。 
谷歌 有 上 百 个 数据 中 心 ， 在 全 世界 安装 了 460 000 多 台 服 务 器 。 例 如 ， 和 谷歌 一 次 会 使 用 200 个 数 
据 中 心 为 一 些 云 应 用 服务 。 数 据 项 存储 在 文本 、 图 像 和 视频 中 ， 并 且 出 于 容错 和 故障 考虑 而 进行 
了 备份 处 理 。 这 里 我 们 讨论 谷歌 的 应 用 程序 引擎 (GAE) ， 它 提供 了 一 个 支持 不 同 的 云 和 Web 应 
用 的 PaaS 平台 。 

4.4.2.1 谷歌 的 云 基础 设施 

谷歌 通过 利用 它 所 操控 的 大 量 数据 中 心 ， 在 云 开发 方面 堪 称 先锋 。 例 如 ， 在 其 他 应 用 程序 
P, 谷歌 是 Gmail、 谷 歌 文 档 、 谷 歌 地 图 等 云 服务 的 先锋 ， 这 些 应 用 可 以 同时 支持 大 量具 有 高 可 
用 性 需求 的 用 户 。 谷 歌 令 人 瞩目 的 技术 成 就 包括 GFS (Google File System， 谷 歌 文 档 系 统 ): 
MapReduce、BigTable 和 Chubby, 2008 年 ， 谷 歌 宣布 GAE Web 应 用 平 台 成 为 许多 小 型 云 服 务 提 
供 商 的 公共 平台 。 该 平台 专门 用 来 支持 弹性 的 Web 应 用 。GAE 使 得 用 户 能 在 与 谷歌 的 搜索 引擎 
操作 相关 联 的 大 量 数据 中 心中 运行 他 们 的 应 用 程序 。 
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4.4.2.2 GAE 体系 结构 

图 4-20 所 示 为 谷歌 云 平台 的 构成 要 素 ， 它 们 用 于 提供 前 面 提 到 的 云 服 务 。GFS 用 于 存储 大 
量 数据 ，MapReduce 用 于 应 用 程序 开发 ，Chubby 用 于 分 布 式 应 用 程序 锁 服 务 ，BigTable 为 访问 结 
构 化 的 数据 提供 存储 服务 ， 这 些 技术 将 在 第 8 章 中 详细 介绍 。 用 户 可 以 通过 每 个 应 用 所 提供 的 
Web 接口 与 谷歌 应 用 程序 交互 。 第 三 方 应 用 软件 提供 商 可 以 使 用 GAE 构造 云 应 用 程序 来 提供 服 [229 
务 。 这 些 应 用 都 运行 在 由 谷歌 工程 师 紧 密 管理 的 数据 中 心中 。 在 每 个 数据 中 心中 ， 有 上 千 的 服务 
器 构成 不 同 的 集群 。 

谷歌 是 较 大 的 云 应 用 提供 商 之 一 ， 尽 管 它 的 基本 服务 程序 是 私有 的 ， 外 人 不 能 使 用 谷歌 的 
基础 设施 构建 他 们 自己 的 服务 。 谷 歌 的 云 计 算 应 用 程序 的 构成 要 素 包括 存储 大 量 数据 的 GFS、 为 
应 用 程序 开发 者 提供 的 MapReduce 编程 框架 、 用 于 分 布 式 应 用 程序 锁 服务 的 Chubby 和 为 访问 结 
构 化 或 半 结 构 化 数据 的 BigTable 存储 服务 。 使 用 这 些 构成 要 素 , 谷歌 构建 了 许多 应 用 程序 。 图 
4-20 显 示 了 谷歌 云 基 础 设施 的 总 体 体系 结构 。 一 个 典型 的 集群 配置 可 以 运行 谷歌 的 文件 系统 、 
MapReduce 作业 和 用 于 结构 化 数据 的 BigTable 服务 器 。 额 外 的 服务 (如 用 于 分 布 式 锁 的 Chubby) 
也 能 运行 在 集群 中 。 
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图 4-20 谷歌 的 云 平台 及 其 构成 要 素 ， 图 中 所 显示 的 块 是 低 开 销 服务 器 的 大 集群 

注 : 由 清华 大 学 陈 康 提供 。 

GAE 在 谷歌 的 基础 设施 中 运行 用 户 的 应 用 程序 。 因 为 它 是 一 个 运行 第 三 方程 序 的 平台 ， 应 
用 程序 开发 者 现在 不 需要 担心 服务 器 的 维护 问题 。GAE 可 以 看 做 是 许多 软件 组 件 的 集合 。 前 端 
是 应 用 程序 框架 ， 类 似 于 其 他 Web 应 用 框架 ， 如 ASP、J2EE 和 JSP。 目 前 ，GAE 可 以 支持 
Python 和 Java 编程 环境 。 应 用 程序 可 以 像 Web 应 用 程序 容器 一 样 运行 。 前 端 可 以 用 做 动态 Web 
服务 基础 设施 ， 可 以 提供 对 公共 技术 的 完整 支持 。 

4.4.2.3 GAE 的 功能 模块 

GAE 平台 由 如 下 5 个 主要 组 件 构 成 。GAE 不 是 一 个 基础 设施 平台 ， 而 是 一 个 用 户 的 应 用 程 
序 开发 平台 。 下 面 我 们 分 别 描述 各 个 组 件 的 功能 : 

a. datastore 基于 BigTable 技术 提供 面向 对 象 的、 分 布 式 的 、 结 构 化 的 数据 存储 服务 。 
datastore 保护 数据 管理 操作 的 安全 。 

b. 应 用 程序 运行 时 环境 为 可 伸缩 的 Web 编程 和 执行 提供 了 平台 。 它 支持 两 种 开发 语言 : 
Python 和 Java。 

c. SDK (Software Development Kit， 软 件 开发 工具 箱 ) 用 于 本 地 应 用 程序 开发 。SDK 允许 用 
户 执行 本 地 应 用 程序 的 测试 并 上 传 应 用 程序 代码 。 
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d 管理 控制 台 用 于 简化 用 户 应 用 程序 开发 周期 的 管理 ， 而 不 是 管理 物理 资源 。 

e. GAE Web 服务 基础 设施 提供 了 特定 接口 来 保证 GAE 灵活 使 用 和 管理 存储 与 网 络 资源 。 

谷歌 为 所 有 Gmail 账户 提供 了 免费 的 GAE 服务 。 我 们 可 以 注册 一 个 GAE 账号 或 使 用 Gmail 
账户 登录 使 用 CAE 服务 。 在 一 定 配额 内 该 服务 免费 。 如 果 超 出 配额 ， 页 面 会 指导 你 如 何 为 服务 
付费 。 然 后 ， 可 以 下 载 SDK 并 阅读 Python 或 Java 人 门 指南 。 注 意 ，GAE 只 接收 Python, Ruby 和 
Java 编程 语言 。 与 亚马逊 提供 IaaS 和 PaaS 不 同 ，GAE 平台 不 提供 任何 Jaas 服务 。 该 模型 允许 用 
户 在 云 基础 设施 之 上 使 用 提供 商 支持 的 编程 语言 (如 Python, Java) 和 软件 工具 部 署 用 户 构建 的 
应 用 程序 。Azure 对 于 . NET 与 此 类 似 。 用 户 无 需 管理 底层 的 云 基 础 设施 。 云 提供 商 在 良好 定义 
的 服务 平台 上 为 应 用 程序 开发 、 测 斌 和 操作 支持 提供 了 便利 。 

4.4.2.4 GAE 的 应 用 程序 

著名 的 CAE 应 用 程序 包括 谷歌 搜索 引擎 、 谷 歌 Docs、 谷 歌 地 图 和 Gmail。 这 些 应 用 可 以 同 
时 支持 大 量 用 户 。 用 户 可 以 通过 每 个 应 用 程序 提供 的 Web 接口 与 谷歌 的 应 用 程序 交互 。 第 三 
方 应 用 程序 提供 商 为 提供 服务 可 以 使 用 CAR 构建 云 应 用 。 应 用 程序 都 运行 在 谷歌 的 数据 中 心 
中 。 在 每 个 数据 中 心 ， 可 能 有 来 自 不 同 集群 的 上 千 服 务 器 节点 。 每 个 集群 可 以 运行 多 目的 服 
务 器 。 

GAE 文 持 许多 Web 应 用 。 一 个 是 在 谷歌 的 基础 设施 中 存储 应 用 程序 特定 数据 的 存储 服务 。 
数据 可 以 永久 存储 在 后 端 存储 服务 器 中 ， 同 时 便于 提供 查询 、 排 序 ， 甚 至 类 似 于 传统 数据 库 系 统 
的 事务 处 理 。GAE 还 提供 谷歌 特有 的 服务 ， 如 Gmail 账户 服务 (登录 服务 ， 即 应 用 可 以 直接 使 用 
Gmail HP). 这 可 以 避免 在 Web 应 用 中 创建 定制 的 用 户 管理 组 件 。 因 此 ， 构 建 在 CAE 之 上 的 
Web 应 用 可 以 使 用 API 认证 用 户 并 使 用 谷歌 账户 发 送 电子 邮件 。 

4.4.3 亚马逊 的 Web ARS (AWS) 

虚拟 机 可 以 用 于 灵活 、 安 全 地 共享 计算 资源 。 亚 马 逊 已 经 成 为 提供 公有 云 服 务 (http:// 
aws. amazon.com) 的 领袖 。 亚 马 逊 使 用 IaaS 模型 提供 服务 。 图 4-21 显示 了 AWS 体系 结构 。EC2 
向 运行 云 应 用 的 主机 虚拟 机 提供 虚拟 化 平台 ，S3 (Simple Storage Service， 简 单 存储 服务 ) 为 用 

[231] 户 提供 面向 对 象 的 存储 服务 ，EBS ( Elastic Block Service， 弹 性 块 服务 ) 提供 支持 传统 应 用 程序 
的 块 存储 接口 ，SQS (Simple Queue Service， 简 单 排队 服务 ) 的 任务 是 确保 两 个 进程 之 间 可 信 的 
消息 服务 ， 甚 至 当 接 收 进程 不 运行 时 也 可 以 可 靠 地 保存 消息 。 用 户 可 以 通过 SOAP 使 用 浏览 器 或 
其 他 支持 SOAP 标准 的 客户 端 程序 访问 他 们 的 对 象 。 

表 4-6 总 结 了 在 12 个 应 用 程序 中 AWS 提供 的 服务 。EC2 、S3 和 EBS 的 细节 兄 第 6 章 ， 其 中 
我 们 也 会 讨论 编程 示例 。 亚 马 逊 支持 排队 和 通知 服务 (SQS 和 SNS) ， 这 些 服 务 在 AWS 云 中 实 
现 。 需 要 注意 的 是 ， 中 和 间 系 统 在 云 中 运行 得 非常 有 效 并 且 可 以 提供 一 个 引 人 注 目的 模型 来 控制 
传感器 和 提供 对 智能 电话 与 平板 电脑 的 办 公 支 持 。 与 谷歌 不 同 ， 亚 马 逊 为 开发 者 构建 云 应 用 提 
本 中 小 型 公司 可 以 在 亚马逊 云 平 台 上 进行 商业 活动 。 使 用 AWS 

台 ， 他 们 可 以 服务 大 量 互 联网 用 户 并 通过 付费 服务 获 利 。 

ELB 可 以 跨越 多 个 亚马逊 EC2 实例 自动 分 发 到 来 的 应 用 程序 ， 人 允许 用 户 避 开 非 操作 节点 ， 
并 在 功能 图 像 上 均衡 负载 。CloudWatch 使 得 自动 伸缩 和 ELB 成 为 可 能 ， 它 可 以 监视 运行 中 的 实 
例 。Cloud Watch 是 一 个 监视 AWS 云 资 源 的 Web 服务 ， 最 初 应 用 于 亚马逊 的 EC2。 它 可 以 为 客户 
提供 资源 利用 率 、 操 作 性 能 和 全 部 需求 模式 (包括 度量 ， 如 CPU AAR, Bee SMA 
量 ) 的 数据 视图 。 
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图 4-21 亚 马 撑 云 计算 基础 设施 (关键 服务 见 本 图 ， 更 多 细节 见 表 4-6) 
注 : 由 清华 大 学 陈 康 提供 。 


表 4-6 2011 年 AWS 提供 的 服务 





服务 领域 服务 模块 和 缩写 名 称 
计算 弹性 计算 云 《EC2), 弹性 MapReduce, 自动 缩放 
消息 传递 简单 排队 服务 (SQS) ， 简 单 通 知 服务 (SNS) 
存储 简单 存储 服务 (S3), 弹性 块 存储 (EBS), AWS 导入/ 导出 
内 容 传 递 亚马逊 CloudFront 
监视 亚马逊 CloudWatch 
支持 AWS 付费 支持 
数据 库 Amazon SimpleDB, 关系 型 数据 库 服务 (RDS) 
网 络 虚拟 私有 云 (VPC) ( 例 4.1, 图 4-6) ,弹性 的 负载 均衡 
网 络 流量 Alexa Web 信息 服务 ，Alexa Web 站 点 
电子 商务 履行 Web 服务 (FWS) 
支付 与 结算 灵活 支付 服务 (FPS), Amazon DevPay 
劳动 力 亚马逊 十 耳 其 机 器 人 


注 ; WEHR, itp: //aws. amazon. com?! 。 


亚马逊 ( 像 Azure) 提供 了 一 个 关系 型 数据 库 服 务 (Relational Database Service, RDS), 使 
用 4. 1 节 中 介绍 的 消息 传递 接口 。 弹 性 的 MapReduce 能 力 等 价 于 Hadoop 运行 在 基本 的 EC2 发 
RE. AWS 导入 /导出 允许 通过 物理 磁盘 运送 大 量 数 据 ， 一般 对 地 理 上 相隔 较 远 的 系统 ， 这 
就 是 最 高 的 带宽 连接 。 亚 马 逊 CloudFront 实现 了 一 个 内 容 分 发 网 络 ， 亚 马 逊 DevPay 是 一 个 易 
于 使 用 的 在 线 结算 和 账户 管理 服务 ， 它 使 得 出 售 运 行 在 AWS 之 中 或 其 上 的 应 用 程序 变 得 很 
容易 。 

FPS 为 AWS 上 的 商业 系统 开发 者 提供 了 一 种 便利 方式 ， 可 以 对 使 用 构建 在 AWS 之 上 的 服务 
的 亚马逊 客户 进行 收费 。 客 户 可 以 使 用 他 们 已 经 记录 在 亚马逊 中 的 登录 凭证 、 送 货 地 址 和 支付 
信息 进行 付款 。FWS 允许 商人 通过 一 个 简单 的 Web 服务 接口 访问 亚马逊 承担 的 服务 。 商 人 可 以 
满足 根据 客户 的 行为 指令 向 亚马逊 发 送 订 购 信 息 。2010 年 7 月 ， 亚 马 逊 提供 了 MPI 集群 和 集群 
计算 实例 。AWS 集群 计算 实例 使 用 硬件 辅助 虚拟 化 而 不 是 其 他 实例 类 型 所 使 用 的 半 虚 拟 化 ， 并 
且 要 求 从 EBS 启动 。 根 据 需要 ， 用 户 可 以 随意 创建 一 个 新 的 AMI。 
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4.4.4 ”微软 的 Windows Azure 

在 2008 年 ， 微 软 发 布 了 一 个 Windows Azure 平台 来 应 对 云 计算 所 遇 到 的 挑战 。 该 平台 构建 在 
微软 的 数据 中 心 之 上 。 图 4-22 显示 了 微软 云 平台 的 整个 体系 结构 。 该 平台 可 以 分 为 三 个 主要 的 
组 件 平台 。Windows Azure 提供 了 一 个 构建 在 Windows 操作 系统 之 上 并 基于 微软 虚拟 化 技术 的 云 
平台 。 应 用 程序 安装 在 部 署 在 数据 中 心服 务 器 上 的 虚拟 机 之 上 。Azure 管理 数据 中 心中 所 有 的 服 
务 器 、 存 储 器 和 网 络 资源 。 在 这 些 基础 设施 之 上 是 构建 不 同 云 应 用 的 各 种 服务 。 由 Azure 平台 提 
供 的 云 级 服务 将 会 在 下 面 介绍 。 关 于 Azure 服务 的 更 多 细节 见 第 6 章 。 
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4-22 ”微软 的 云 计 算 平 台 Windows Azure 
注 : 由 微软 提供 , 2010, http://www. microsoft. com/ windowsazure。 


© Live 服务 : 用 户 可 以 访问 微软 Live 应 用 ， 并 跨越 多 台 机 器 并 行 地 使 用 所 包括 的 数据 。 

e。 .NET 服务 : 支持 应 用 程序 在 本 地 主机 上 开发 、 在 云 机 器 上 执行 。 

e SQL Azure: 更 易于 用 户 访问 和 使 用 与 云 中 SQL 服务 器 相关 的 关系 型 数据 库 。 

© SharePoint IRS: 为 用 户 提供 了 一 个 可 伸缩 和 可 管理 的 平台 ， 可 以 在 更 新 的 Web 服务 上 开 
发 他 们 自己 特定 的 商业 应 用 。 

动态 CRM 服务 : 为 软件 开发 者 提供 了 一 个 商业 平台 ， 可 以 在 金融 、 市 场 、 销 售 和 促销 方 
面 管 理 CRM 应 用 。 

Azure 中 的 所 有 这 些 云 服务 都 可 以 与 微软 的 传统 软件 应 用 进行 交互 ， 例 如 Windows Live、 
Office Live, Exchange Online, SharePoint Online 和 动态 CRM Online, Azure 平台 使 用 标准 的 Web 
通信 协议 SOAP 和 REST, Azure 服务 应 用 允许 用 户 与 其 他 平台 或 第 三 方 云 集 成 去 应用。 我 们 可 以 
下 载 Azure 开发 工具 箱 来 运行 本 地 版 本 的 Azure。 强 大 的 SDK 允许 在 Windows 主机 上 开发 和 调试 
Azure 应 用 程序 。 


4.5 云 间 的 资源 管理 


232 本 节 将 刻画 各 种 云 服务 模型 及 其 扩展 ， 简 要 介绍 云 服务 趋势 ， 并 总 结 云 的 资源 管理 和 云 之 
234 | 间 的 资源 交换 体系 结构 。4. 6 节 将 讨论 云 资 源 对 网 络 威胁 的 防御 。 
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4.5.1 扩展 的 云 计算 服务 

图 4-23 显示 了 6 层 的 云 服 务 ， 范 围 从 硬件 、 网 络 和 配置 到 基础 设施 、 平 台 和 软件 应 用 。 我 
们 已 经 分 别 介 绍 了 SaaS, PaaS 和 IaaS 上 面 这 三 个 服务 层 。 云 计算 平台 提供 的 PaaS 位 于 laas 的 基 
础 设施 顶端 。 顶 层 提 供 SaaS 。 这 些 都 必须 所 提供 的 云 平台 上 实现 。 如 表 4-7 所 示 ， 虽 然 三 个 基 
本 模型 用 法 不 同 ， 但 它们 是 逐 层 建立 的 。 言 外 之 意 是 ， 没 有 云 平 台 ， 就 没有 SaaS 应 用 。 如 果 计 
算 和 存储 基础 设施 不 存在 ， 就 不 能 构建 云 平台 。 


云 软件 环境 (PaaS ) 
计算 资源 (TaaS ) | 存储 (Daas) 通信 ( CaaS ) 
Savvis, Internap, NTTCommunications , 


配置 云 服务 〈 LaaS ) Digital Realty Trust, 365 Main 


网 络 云 服务 ( NaaS ) 


硬件 虚拟 化 云 服 务 ( HaaS ) 














Concur, RightNOW Teleo. Kenexa, Webex, 
Blackbaud, salesforce.com, Netsuite, Kenexa“ 








Force.com, App Engine, Facebook, MS Azure, 
NetSuite, IBM BlueCloud, SGI Cyclone, eBay 





Amazon AWS, OpSource Cloud, IBM Ensembles, 
Rackspace cloud, Windows Azure, HP, 


Banknorth 



















Owest, AT&T, AboveNet 


VMware, Intel, IBM, XenEnterprise 


图 4-23 云 服务 及 其 提供 商 的 6 层 栈 
32: 由 个 Chou 提供 ，Active Book Express, 201008] 。 


R4-7 云 在 提供 商 、 供 应 商 和 用 户 角度 的 不 同 





zan | ws | Peas Saas 
开 管 理 员 或 云 提供 商 监视 SLA， 使 能 服务 平台 监视 SLA， 部 署 软 件 


软件 开发 者 (供应 商 ) 部 署 和 存储 数据 通过 配置 和 API 使 能 平台 开发 和 部 署 软件 
终端 用 户 或 商业 用 户 部 署 和 存储 数据 开发 和 测试 Web 软件 使 用 商业 软件 





底部 的 三 层 与 物理 要 求 关 系 更 密切 。 最 下 面 的 层 提 供 硬 件 即 服务 (Hardware as a Service, 
HaaS) 。 下 一 层 是 用 于 互 连 所 有 硬件 组 件 ， 并 简称 为 网 络 即 服务 (Network as a Service, NaaS ) 。 
虚拟 局 域 网 属于 Naas 范围 内 。 下 一 层 提供 位 置 即 服务 ( Location as a Service，LaaSs) ， 它 提供 一 
个 配置 服务 ， 用 于 地 点 安置 、 供 电 ， 并 确保 所 有 的 物理 硬件 和 网 络 资源 安全 。 有 些 学 者 认为 ， 这 
层 提供 安全 即 服务 (SaaS)。 除 了 Iaas 的 计算 和 存储 服务 外 ， 云 基础 设施 层 可 以 进一步 细 分 为 数 
据 即 服务 (DaaS) 和 通信 即 服务 (CaaS ) 。 

在 随后 的 章节 中 ， 我 们 将 研究 云 服务 商业 化 的 趋势 。 在 这 里 ， 我 们 将 主要 讲述 上 面 三 层 
与 云 计 算 成 功 的 例子 。 如 表 4-7 所 示 ， 云 成 员 可 以 分 为 三 大 类 : (1) 云 服务 提供 商 和 区 管理 
A, (2) 软件 开发 商 或 供应 商 ，(3) 终端 用 户 或 企业 用 户 。 在 IaaS. PaaS 和 SaaS 模式 下 ， 这 些 
云 成 员 作用 不 同 。 表 中 的 项 显示 了 三 个 不 同 的 成 员 看 待 云 模型 的 区 别 。 从 软件 厂商 的 角度 来 看 ， 
一 个 给 定 的 云 平台 的 应 用 性 能 是 最 重要 的 。 从 供应 商 的 角度 来 看 ， 云 计算 基础 设施 性 能 最 重要 。 
从 终端 用 户 的 角度 来 看 ， 服 务 质量 (包括 安全 性 ) 是 最 重要 的 。 

4.5.1.1 云 服务 的 任务 和 趋势 

云 服 务 共 有 5 层 。 最 上 面 一 层 是 Saas 应 用 ， 如 图 4-23 进一步 划分 的 5 个 应 用 领域 所 示 ， 主 
要 用 于 商业 应 用 。 例 如 ,CRM 在 商业 促销 、 直 接 销售 和 市 场 服务 应 用 其 广 。CRM 在 云端 成 功 提 
供 了 第 一 个 SaaS。 该 方法 是 通过 调查 顾客 行为 来 扩大 市 场 覆盖 面 ， 通 过 统计 分 析 来 寻找 机 会 。 
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SaaS 工具 也 适用 于 分 布 式 协 作 、 财 政和 人 力 资源 管理 。 近 几 年 ， 这 些 云 服 务 在 迅速 增长 。 

谷歌 、Salesforce. com 和 Facebook 等 提供 PaaS, W-E, Windows Azure 和 RackRack 等 提供 
laaS 。 配 置 服务 需要 多 个 云 提供 商 携手 合作 ， 以 支持 制造 业 的 供应 链 。 云 服务 网 络 提 供 由 ATAT, 
Qwest、AboveNet 等 建立 的 通信 , 详情 可 参阅 Clou 的 关于 商业 云 的 人 人 门 书 "“。 图 4-23 所 示 的 垂直 
云 服 务 是 指 一 个 相互 支持 的 云 服 务 。 通 常情 况 下 ， 垂 直 云 应 用 运行 云 混搭 系统 的 应 用 。 

4.5.1.2 云 计 算 的 软件 栈 

尽管 云 计 算 集 群 拥有 各 类 节点 ， 整 个 软件 栈 白手 起 家 ， 以 实现 严谨 目标 〈 见 表 4-7 ) 。 开 发 
者 必须 考虑 如 何 设计 系统 ， 以 满足 一 些 关 键 要 求 ， 如 高 吞吐 量 、 高 可 用 性 和 容错 等 。 甚 至 为 满足 
云 数据 处 理 的 特殊 要 求 ， 我 们 可 能 对 操作 系统 进行 修改 。 基 于 一 些 典 型 的 云 计算 实例 的 观察 ， 如 
谷歌 、 微 软 和 雅虎 ， 整 个 云 计算 软件 栈 结构 都 可 以 看 做 层 。 每 一 层 都 有 其 自己 的 目的 ， 就 像 传 统 
的 软件 栈 一 样 为 上 层 提供 接口 。 然 而 ， 较 低层 对 上 层 并 不 完全 透明 。 

运行 云 计 算 服 务 的 平台 既 可 以 是 物理 服务 器 ， 也 可 以 是 虚拟 服务 器 。 虚 拟 机 使 平台 具有 灵 
活性 ， 也 就 是 说 ， 正 在 运行 的 服务 并 不 受 限于 特定 的 硬件 平台 。 平台 上 的 软件 层 是 用 于 存储 大 量 
数据 的 层 。 这 层 的 作用 类 似 于 传统 的 单机 文件 系统 的 作用 。 文 件 系统 上 运行 的 其 他 层 是 云 计 算 
应 用 程序 的 执行 层 。 它 们 包括 数据 库存 储 系 统 、 大 型 集群 的 编程 和 数据 查询 语言 支持 。 下 一 层 是 
软件 栈 的 组 件 。 

4.5.1.3 运行 时 支持 服务 

在 集群 环境 中 ， 也 有 一 些 云 计 算 环 境 下 的 运行 时 支持 服务 。 集 群 监控 用 于 收集 整个 集群 的 
运行 时 状态 。 第 2 章 介 绍 了 最 重要 的 设备 之 一 一 一 集群 作业 管理 系统 。 根 据 节点 的 可 用 性 ， 调 度 
器 将 提交 给 整个 集群 的 任务 排序 ， 并 将 任务 分 配给 处 理 节点 ， 云 应 用 的 分 布 式 调度 器 具有 支持 
云 应 用 程序 的 特性 ， 如 调度 用 MapReduce 风格 编写 的 程序 。 运 行 时 支持 系统 使 云集 群 以 高 效率 
正常 运作 。 

成 千 上 万 的 云 客 户 使 用 用 浏览 器 启动 的 应 用 程序 ， 运 行 这 种 应 用 程序 时 ,软件 需要 运行 时 
支持 。SaaS 模式 是 让 用 户 租用 软件 应 用 程序 ， 而 不 是 购买 软件 。 因 此 ， 在 客户 看 来 ， 服 务 器 或 软 
件 版 本 许可 不 用 提前 投资 。 在 提供 商 看 来 ， 与 传统 的 托管 用 户 程序 相 比 ， 这 种 模式 成 本 比较 低 。 
客户 数据 存储 在 云 中 ， 这 种 云 要 么 是 供应 商 私 有 ， 要 么 是 支持 PaaS 和 laas 的 公有 托管 云 。 
4.5.2 资源 配置 和 平台 部 署 

计算 云 的 出 现 表明 软件 和 硬件 体系 结构 的 根本 性 转变 。 云 体系 结构 将 更 加 强调 处 理 器 核心 
的 数目 或 虚拟 机 实例 。 并 行 在 集群 节点 级 开发 。 在 本 节 中 ， 我 们 将 讨论 配置 计算 机 资源 或 虚拟 机 
的 技术 。 然 后 ， 我 们 将 谈论 通过 动态 利用 虚拟 机 构建 互 连 分 布 式 计算 基础 设施 的 存储 分 配方 案 。 

4.5.2.1 计算 资源 (虚拟 机 ) 的 配置 

提供 商 通 过 与 终端 用 户 签订 SLA 来 提供 云 服 务 。SLA 必须 投入 足够 的 资源 ， 如 CPU、 内 存 
和 带宽 ， 用 户 可 以 使 用 预 设 的 时 间 。 资 源 配置 不 足 将 会 损坏 SLA 并 受到 处 罚 。 资 源 配置 过 度 将 
导致 资源 不 能 得 到 充分 利用 ， 因 此 ， 提 供 商 的 收入 减少 。 部 署 一 个 可 以 有 效 向 用 户 配 置 资源 的 自 
治 系统 是 一 个 具有 挑战 性 的 问题 。 困 难 在 于 消费 者 需求 的 不 可 预测 性 、 软 件 和 硬件 故障 、 服 务 的 
异 质 性 、 电 源 管理 、 消 费 者 和 服务 提供 商 之 间 签 署 的 SLA 中 的 冲突 。 

高 效 的 虚拟 机 配置 取决 于 云 体 系 结构 和 云 基 础 设施 的 管理 。 资 源 配 置 方 案 还 要 求 快 速 找到 
云 计算 基础 设施 中 的 服务 和 数据 。 在 一 个 虚拟 化 的 服务 器 集群 中 ， 这 就 需要 高 效 的 虚拟 机 安装 、 
实时 虚拟 机 迁移 、 快 速 故障 恢复 。 为 了 部 署 虚拟 机 ， 用 户 需 要 将 它们 视 为 拥有 针对 特定 应 用 而 定 
制 的 操作 系统 的 物理 主机 。 例 如 ， 亚马逊 的 EC2 利用 Xen 作为 虚拟 机 监视 器 (VMM) 。IBM 的 
蓝 云 也 使 用 同样 的 VMM。 

在 EC2 平台 中 ， 还 提供 了 一 些 预定 义 的 虚拟 机 模板 。 用 户 可 以 从 模板 选择 不 同 种 类 的 虚拟 
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机 。IBM 的 蓝 色 云 并 不 提供 任何 虚拟 机 模板 。 一 般 情况 下 ， 任 何 类 型 的 虚拟 机 都 可 以 在 Xen 的 顶 
部 运行 。 微 软 也 在 其 Azure 云 平 台中 应 用 虚拟 化 。 提 供 商 应 该 提供 资源 -经 济 服务 。 由 于 数据 中 
心 散热 引起 的 能 源 浪 费 日 益 增多 ， 因 此 缓存 节能 方案 、 查 询 处 理 和 热量 管理 都 是 强制 性 的 。 公 有 
云 或 私有 云 承诺 精简 作为 一 种 服务 ,实现 IT 部 署 和 操作 的 规模 效益 ， 按 需 配 置 软件 、 硬 件 和 
数据 。 

4.5.2.2 资源 配置 方法 

图 4-24 显示 了 静态 云 资源 配置 策略 的 三 种 情况 。 在 图 4-24a 中 ， 过 量 配 置 峰值 负载 导致 严 
重 资源 浪费 (阴影 部 分 ) 。 在 图 4-24b 中 ， 资 源 配置 不 足 ( 沿 着 容量 ) 导致 用 户 和 供应 商 双 方 的 
损失 ， 由 于 用 户 的 需求 (容量 线 以 上 的 阴影 部 分 ) 未 送 达 ， 以 及 资源 请 求 低 于 资源 配置 而 造成 资 
源 浪费 。 在 图 4-24c 中 ， 在 用 户 需 求 递 减 的 情况 下 ， 固 定 资源 配置 会 导致 更 大 的 资源 浪费 。 用 户 
可 能 会 通过 取消 需求 放弃 该 服务 ， 这 样 就 会 使 提供 商 的 收入 减少 。 在 非 弹性 的 资源 配置 中 ， 用 户 
和 提供 商 可 能 都 是 输家 。 














时 间 ( 天数 ) 时 间 ( 天数 ) 
a) 按 峰 值 负载 需求 配置 b) 配置 不 足 1 





时 间 (天 数 ) 
c) 配置 不 足 2 
图 4-24 云 资源 非 弹 性 配置 的 三 种 情况 : a) 由 于 过 量 配置 而 引起 的 极度 浪费 ; b) 配置 不 足 ; 
c) 配置 不 足 到 过 量 配置 
注 : 由 加 州 大 学 伯克利 分 校 Armbrust 等 人 提供 ，200914] 。 


图 4-25 展示 了 资源 配置 的 三 种 方法 。 需 求 驱动 方法 提供 静态 资源 ， 并 且 已 用 于 网 格 计 算 很 
多 年 。 事 件 驱动 方法 基于 不 同时 期 预测 的 工作 负载 而 定 。 人 气 驱 动 方法 基于 互联 网 流量 监测 。 下 
面 我 们 将 具体 描述 这 些 资 源 配置 方法 。 

4.5.2.3 需求 驱动 的 资源 配置 

这 种 方法 基于 已 分 配 资源 的 利用 水 平 来 添加 或 移 除 资源 配置 量 。 当 用 户 使 用 一 个 Xeon 处 理 
器 超过 持续 期 时 间 的 60% 时 ， 需 求 驱动 方法 自动 为 用 户 的 应 用 程序 分 配 两 个 Xeon 处 理 器 。 一 般 
情况 下 ， 当 资源 已 超过 某 一 时 间 阔 值 时 ， 该 方案 将 根据 需求 增加 资源 。 当 资源 低 于 某 一 时 间 阔 值 
时 ， 资 源 也 可 相应 减少 。 亚 马 逊 在 其 EC2 平台 实现 了 这 种 自动 缩放 功能 。 这 种 方法 比较 容易 实 
现 。 如 果 工 作 负 载 突 然 改 变 ， 本 方法 无 法 实现 。 

图 4-25 中 x 轴 是 以 毫秒 为 单位 的 时 间 刻 度 。 在 开始 时 ,CPU 负载 出 现 大 幅 波 动 。 所 有 三 
种 方法 最 初 都 要 求 几 个 虚拟 机 实例 。 图 4-25a 展示 了 需求 驱动 方法 的 资源 配置 过 程 ， 最 多 20 
个 虚拟 机 就 可 以 达到 100% 利用 率 。 图 4-25b 展示 了 事件 驱动 方法 的 配置 过 程 ， 最 多 17 个 虚 
拟 机 就 可 以 达到 稳定 的 峰值 。 图 4-25e 展示 了 人 气 驱动 方法 的 配置 过 程 ， 其 峰值 出 现在 资源 配 
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图 4-25 在 AWS EC2 平台 上 的 EC2 性 能 结果 ， 收 集 自 南 加 州 大 学 使 用 三 种 资源 配置 方法 的 实 


验 结果 

注 ; 由 南 加 州 大 学 Ken Wu 提供 。 

4. 5.2.4 事件 驱动 的 资源 配置 

这 种 方法 用 于 添加 或 删除 基于 特定 时 间 事 件 的 机 器 实例 。 该 方案 对 季节 性 事件 或 预测 事 
件 〈 如 在 西方 的 圣诞 节 和 东方 的 农历 新 年 ) 效果 更 好 。 在 这 些 特殊 事件 发 生 期 间 ， 用 户 数 的 
增长 与 减少 是 可 以 预测 的 。 这 种 方法 预测 事件 发 生前 的 流量 高 峰 。 如 果 事 件 的 预测 正确 ， 这 
种 方法 会 导致 最 少量 的 服务 质量 损失 ; 和 否则， 由 于 不 遵循 一 种 固定 模式 的 事件 ， 浪 费 的 资源 
可 能 更 大 。 
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4.5.2.5 人 气 驱动 资源 配置 

利用 这 种 方法 ， 互 联网 搜索 某 些 应 用 程序 的 受 欢迎 程度 ， 并 按 人 气 需 求 创建 实例 。 该 方 
法 期 望 负载 根据 受 欢 迎 程度 来 增 减 。 如 果 预 测 的 受 欢 迎 程度 正确 ， 该 方案 会 最 小 化 QoS 的 损 
失 。 如 果 没 有 出 现 预期 的 流量 ， 那 么 可 能 会 浪费 资源 。 图 4-25c 展示 了 CPU 利用 率 与 配置 虚 
拟 机 的 关系 〈 深 色 曲 线 的 变化 规模 由 左边 y 轴 标 示 ， 浅 色 曲 线 展 示 虑 拟 机 需求 量 的 变化 ， 其 
峰值 为 20) 。 

4.5.2.6 动态 资源 部 署 

云 使 用 虚拟 机 作为 构造 块 来 跨 多 个 资源 站 点 创建 一 个 执行 环境 。 墨尔本 大 学 "开发 了 
InterGrid 管理 基础 设施 。 实 现 了 动态 资源 部 署 ， 从 而 可 以 实现 性 能 的 可 扩展 性 。 外 部 网 格 是 一 个 
Java 实现 的 软件 系统 ， 人 允许 用 户 在 所 有 参与 网 格 资源 的 顶部 创建 执行 云 环 境 。 网 关 之 间 建立 的 对 
等 安排 可 以 分 配 多 个 网 格 的 资源 ， 建 立 执行 环境 。 图 4-26 展示 外 部 网 格 网 关 ( Intergid gateway, 
IGG) 如 何 从 本 地 集群 部 署 应 用 程序 ， 分 配 资源 : (1) 请 求 虚拟 机 ，(2) 颁布 租约 ，(3) 按 请 求 
部 署 虚拟 机 。 在 峰值 需求 以 下 , 这 个 IGG 可 以 与 另 一 个 IGG 交换 资源 。 


_ VIE ( BAPI) 


ree 
Si (VIE) X 







一 一 一 对 等 安排 
”用 户 应 用 程序 


D icra FRE 


图 4-26 使 用 一 个 IGG (外 部 网 格 网 关 ) 部 署 云 资 源 ， 从 一 个 本 地 集群 中 分 配 虚拟 机 ， 与 公有 云 提 
供 商 的 IGG 交互 
注 ; 由 Constanzo 等 人 提供 [21] 。 


网 格 已 经 预定 义 了 与 IGG 管理 的 其 他 网 格 的 对 等 安排 。 通 过 多 个 IGG， 系 统 协调 InterGrid 
资源 的 使 用 。IGG 选择 合适 的 网 格 ， 可 以 提供 所 需 的 资源 和 其 他 IGG 请 求 的 答复 。 请 求 重 定向 
策略 确定 选择 对 等 网 格 InterGrid 来 处 理 一 个 请 求 及 该 网 格 执行 此 任务 的 价格 。IGG 也 可 以 从 云 
提供 商 分 配 资源 。 云 系统 创建 一 个 虚拟 环境 ， 以 帮助 用 户 部 署 他 们 的 应 用 程序 。 这 些 应 用 程序 使 
用 分 布 式 网 格 资源 。 

InterGrid 分 配 并 提供 一 个 分 布 式 虚拟 环境 (Distributed Virtual Environment，DVE)。 这 是 虚拟 
机 的 虚拟 集群 ， 与 其 他 虚拟 集群 的 运行 相隔 离 。 一 个 称 为 DVE 管理 器 的 组 件 为 特定 用 户 应 用 程 
序 分 配 和 管理 资源 。IGG 核心 零 组 件 是 一 个 调度 器 ， 执 行 资 源 配置 策略 并 监视 其 他 网 关 。 通 信 组 
件 提供 了 异步 消息 传递 机 制 。 所 收 到 的 消息 由 一 个 线程 池 并 行 处 理 。 
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4.5.2.7 存储 资源 的 配置 7 

数据 存储 层 构 建 在 物理 服务 器 或 虚拟 服务 器 的 顶部 。 由 于 云 计算 应 用 程序 通常 为 用 户 提供 
服务 ， 因 此 不 可 避免 地 要 将 数据 存储 在 云 提供 商 的 集群 中 。 该 服务 可 以 在 世界 任何 地 方 被 访问 。 
电子 邮件 系统 就 是 一 个 例子 。 一 个 典型 的 大 型 电子 邮件 系统 可 能 有 数 百 万 的 用 户 并 和 且 每 个 用 户 
可 能 有 成 千 的 电子 邮件 ， 消 耗 几 GB 的 磁盘 空间 。 另 一 个 例子 是 Web 搜索 应 用 。 在 存储 技术 方 
面 ， 未 来 可 能 用 固态 驱动 器 增强 硬盘 驱动 器 。 这 将 提供 可 靠 的 和 高 性 能 的 数据 存储 。 数 据 中 心中 
采用 闪存 的 最 大 障碍 是 价格 、 容 量 ， 以 及 在 某 种 程度 上 ， 复 杂 查询 处 理 技术 的 缺乏 。 不 过 ， 这 会 
增加 很 多 固态 驱动 器 的 IO 带宽 ， 由 于 成 本 过 高 而 不 现实 。 

分 布 式 文件 系统 对 于 大 规模 数据 存储 是 非常 重要 的 。 但 是 ， 也 存在 其 他 形式 的 数据 存储 。 一 
些 数 据 不 需要 树 结构 文件 系统 的 名 称 空间 ， 相 反 ， 数 据 库 由 存储 的 数据 文件 构建 。 在 云 计 算 中 ， 
数据 存储 的 另 一 种 形式 是 ( 键 ， 值 ) 对 。 亚 马 逊 53 服务 使 用 SOAP 访问 存储 在 云 计算 中 的 对 象 。 
表 4-8 概述 了 谷歌 、Hadoop 和 亚马逊 提供 的 三 个 云 存储 服务 。 


表 4-8 三 个 云 计 算 系 统 中 的 存储 服务 









存储 系统 特 征 


非常 大 的 持续 读 / 写 带宽 ， 大 部 分 是 连续 访问 而 非 随机 访问 。 编 程 接口 类 似 于 
POSIX 文件 系统 访问 接口 
GFS 的 开源 版 本 ， 编 程 语言 是 Java。 编 程 接口 类 似 于 但 不 同 于 POSIX 


S3 用 于 从 远程 服务 器 获取 数据 或 向 远程 服务 器 存储 数据 。EBS 构建 在 S3 之 上 ， 
用 作 运 行 EC2 实例 的 虚拟 磁盘 















GFS (谷歌 文件 系统 ) 












HDFS (Hadoop 分 布 式 文件 系统 ) 





亚马逊 53 Al EBS 





很 多 云 计算 公司 已 经 开发 出 大 型 数据 存储 系统 ， 用 于 保存 每 天 收集 的 大 量 数据 。 例 如 ， 谷 歌 
的 GFS 存储 Web 数据 和 一 些 其 他 数据 ， 如 谷歌 地 球 的 地 理 数据 。 另 一 个 类 似 的 系统 是 开源 社区 
为 Apache 开发 的 Hadoop 分 布 式 文件 系统 (HDFS) 。Hadoop 是 谷歌 云 计 算 基 础 设施 的 开源 实现 。 
类 似 的 系统 包括 微软 针对 云 的 宇宙 文件 系统 。 

尽管 存储 服务 或 分 布 式 文件 系统 可 以 被 直接 访问 ， 但 是 类 似 于 传统 数据 库 ， 云 计算 确实 提 
供 某 些 形式 的 结构 化 或 半 结 构 化 数据 库 处 理 能 力 。 例 如 ， 应 用 程序 可 能 要 处 理 Web 页 中 包含 的 
信息 。Web 页 是 HTML 格式 的 半 结 构 化 数据 示例 。 如 果 可 以 使 用 某 些 形式 的 数据 库 功 能 ， 应 用 
程序 开发 人 员 将 更 容易 构造 应 用 逻辑 。 在 云 计算 中 建立 一 个 类 数据 库 服 务 的 另 一 个 原因 是 ， 这 
便于 传统 的 应 用 程序 开发 人 员 为 云 平台 编写 代码 。 数 据 库 作为 基础 的 存储 设备 ， 对 于 许多 应 用 
程序 很 常见 。 

因此 ， 开 发 人 员 可 以 像 他 们 做 传统 的 软件 开发 那样 思考 。 所 以 在 云 计算 中 ， 有 必要 像 基 于 数 

[242 ] 据 存 储 或 分 布 式 文件 系统 的 大 规模 系统 那样 建立 数据 库 。 此 类 数据 库 的 规模 可 能 相当 大 ， 用 于 

处 理 大 量 的 数据 。 主 要 目的 是 以 结构 化 或 半 结 构 化 方式 存储 数据 ， 以 便 应 用 程序 开发 人 员 可 以 
轻松 地 使 用 它 ， 并 迅速 构建 自己 的 应 用 程序 。 当 该 系统 扩展 到 更 大 规模 时 ， 传 统 数据 库 会 遇 到 性 
能 瓶颈 。 然 而 ， 一 些 实际 的 应 用 程序 并 不 需要 这 样 严 格 的 一 致 性 。 此 类 数据 库 的 规模 可 能 很 大 。 
典型 的 云 数 据 库 包括 谷歌 的 BigTable、 亚 马 逊 的 SimpleDB 和 微软 Azure 的 SQL 服务 。 
4. 5.3 虚拟 机 创建 和 管理 

在 本 节 中 ， 我 们 会 考虑 云 基础 设施 管理 的 几 个 问题 。 首 先 ， 我 们 会 考虑 独立 服务 作业 的 资源 
管理 。 然 后 ， 我 们 会 考虑 如 何 执行 第 三 方 云 应 用 程序 。 墨 尔 本 研究 组 对 法 国 Grid'5000 系统 进行 
云 负载 实验 。 这 个 实验 说 明了 虚拟 机 的 创建 和 管理 。 本 案例 研究 揭示 了 主要 的 虚拟 机 管理 问题 ， 
并 对 负载 均衡 执行 提出 一 些 看 似 合理 的 解决 方案 。 图 4-27 显示 创建 与 管理 云 的 虚拟 机 管理 器 之 
间 的 交互 。 管 理 器 为 用 户 提供 了 一 个 提交 和 控制 虚拟 机 的 公有 API。 
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虚拟 机 实例 VM=vmms.submit(vmTemplate, host) vmInstance.shutdown0 
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fedora; 2 个 核 ; 256 MB 


opensuse; 1 个 核 ; 512 MB 
























转换 通用 模板 为 虚拟 
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图 4-27 创建 和 管理 云 虚 拟 机 管理 器 之 间 的 交互 ， 管 理 器 为 用 户 提交 和 控制 虚拟 机 提供 一 个 公 
有 API 
iż: 由 Constanzo, Assuncao 和 Buyya 提供 [21] 。 243 


4.5.3.1 独立 的 服务 管理 

独立 服务 请 求 设备 执行 许多 不 相关 的 任务 。 通 常 ， 提 供 的 API 是 一 些 便于 开发 人 员 使 用 的 
Web 服务 。 在 亚马逊 的 云 计算 基础 设施 中 ，SQS 构造 向 不 同 的 提供 商 提供 可 靠 的 通信 服务 。 而 另 
一 个 用 户 已 经 在 SQS 中 发 布 了 一 条 消息 ， 即 使 该 用 户 不 会 运行 。 通 过 使 用 独立 的 服务 提供 商 ， 
云 应 用 程序 可 以 在 同一 时 间 运 行 不 同 的 服务 ， 包 括 提供 计算 或 存储 服务 以 外 的 数据 。 

4.5.3.2 运行 第 三 方 应 用 程序 

云 平台 不 得 不 为 由 第 三 方 应 用 程序 提供 商 或 程序 员 构 造 的 应 用 程序 提供 支持 。 由 于 当前 
Web 应 用 程序 通常 使 用 Web 2.0 形式 (使 用 Ajax 交互 式 应 用 程序 ) 提供 ， 编 程 接口 与 传统 的 编 
程 接口 (如 运行 时 库 中 的 函数 ) 有 所 不 同 。API 通常 是 服务 形式 。 程 序 员 经 常会 使 用 Web 服务 
应 用 程序 引擎 构建 应 用 程序 。Web 浏览 器 是 终端 用 户 的 用 户 界面 。 

除了 网 关 应 用 程序 外 ， 云 计算 平台 还 提供 了 额外 的 功能 ， 可 以 访问 后 端 服务 或 底层 数据 。 作 
HAF, GAE 和 微软 Azure 应 用 它们 自己 的 云 API 来 获得 特别 的 云 服 务 。WebSphere 应 用 引擎 用 
于 IBM 蓝 云 部 署 。 它 可 以 用 于 任何 类 型 的 Java 编写 的 Web 应 用 程序 的 开发 。 在 EC 中 ， 用 户 
可 以 使 用 任何 一 种 可 以 在 虚拟 机 实例 中 运行 的 应 用 程序 引擎 。 

4.5.3.3 虚拟 机 管理 器 

虚拟 机 管理 器 是 网 关 和 资源 之 间 的 纽带 。 网 关 并 不 直接 共享 物理 资源 ， 而 是 依靠 虚拟 化 技 
术 来 抽象 它们 。 因 此 ， 它 使 用 的 实际 资源 是 虚拟 机 。 管 理 器 管理 部 署 在 一 组 物理 资源 上 的 虚拟 
机 。 虚 拟 机 管理 器 执行 是 泛 型 的 ， 这 样 它 可 以 与 不 同 的 VIE 连接 。 通 常 ，VIE 可 以 创建 并 停止 物 
理 集群 上 的 虚拟 机 。 墨 尔 本 研究 组 为 OpenNebula、 亚 马 逊 EC2 和 法 国 Grid'5000 开发 管理 器 。 这 
个 管理 器 使 用 OpenNebula 操作 系统 (www. opennebula. org) 在 本 地 集群 部 署 虚拟 机 。 

OpenNebula 作为 守护 进程 服务 运行 在 主 节点 上 ， 所 以 VMM 担任 一 个 远程 用 户 。 用 户 在 使 用 
不 同 种 类 hypervisor (如 Xen (www. xen. org)) 的 物理 机 器 上 提交 虚拟 机 ， 从 而 可 以 在 同一 主机 
上 同时 运行 几 个 操作 系统 。VMM 还 管理 网 格 上 的 虚拟 机 部 署 和 IaaS 提供 商 。InterGrid 支持 亚 马 
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逊 EC2。 连 接 器 是 亚马逊 提供 的 命令 行 工 具 的 一 个 包装 (wrapper), Grid’5000 的 虚拟 机 管理 器 也 
是 其 命令 行 工具 的 包装 。 为 了 部 署 虚拟 机 ， 管 理 器 需要 使 用 其 模板 。 

4.5.3.4 虚拟 机 模板 

虚拟 机 模板 类 似 于 计算 机 的 配置 ， 包含 虚拟 机 的 如 下 信息 : 

© 要 分 配给 虚拟 机 的 核 或 处 理 器 的 数目 。 

。 虚拟 机 要 求 的 内 存量 。 

[244] ° 用 于 启动 虚拟 机 的 操作 系统 内 核 。 

© 包含 虚拟 机 文件 系统 的 磁盘 镜像 。 

。 每 小 时 使 用 虚拟 机 的 价格 。 

当 设 置 基 础 设施 时 ， 网 关 管 理 员 提供 虚拟 机 模板 信息 。 管 理 员 可 以 随时 更 新 、 添 加 和 删除 模 
板 。 此 外 ，InterGrid 网 络 中 的 每 个 网 关 必 须 为 每 个 站 点 提供 相同 的 配置 。 为 部 署 一 个 给 定 的 虚拟 
机 的 实例 ，VMM 要 从 模板 生成 描述 符 。 这 个 描述 符 包 含 的 字段 与 模板 相同 并 包含 与 具体 虚拟 机 
实例 相关 的 其 他 信息 。 通 常 这 些 附加 信息 包括 : 

© 包含 虚拟 机 文件 系统 的 磁盘 镜像 。 

。 托管 虚拟 机 的 物理 机 器 地 址 。 

。 虚拟 机 的 网 络 配置 。 

© IaaS 提供 商 上 部 署 所 需 的 信息 。 

在 开始 一 个 VM 实例 之 前 ， 调 度 器 给 出 网 络 配置 和 主机 地 址 ; 然后 为 该 实例 分 配 MAC 和 IP 
地 址 。 模 板 指定 磁盘 镜像 字段 。 为 了 并 行 部 署 几 个 相同 的 虚拟 机 模板 实例 ， 每 个 实例 都 使 用 磁盘 
镜像 的 临时 副本 。 因 此 ， 该 描述 符 包 含 复制 磁盘 镜像 的 路 径 。 在 不 同 的 laas 提供 商 上 部 署 虚拟 
机 ， 其 描述 符 字 段 是 不 同 的 。 不 需要 网 络 信息 ， 因 为 亚马逊 EC2 自动 向 实例 分 配 一 个 公有 IP. 
IGG 使 用 虚拟 机 模板 库 工 作 ， 称 为 虚拟 机 模板 目录 。 

4.5.3.5 分 布 式 虚拟 机 管理 

图 4-28 说 明 InterGrid 组 件 之 间 的 交互 。 分 布 式 虚拟 机 管理 器 向 虚拟 机 发 出 请 求 并 查询 它们 
的 状态 。 这 个 管理 器 借助 用 户 应 用 程序 从 网 关 请 求 虚拟 机 。 管 理 器 从 网 关 获 取 被 请 求 的 虚拟 机 
的 列表 。 此 列表 包含 为 每 个 带 有 安全 Shell (SSH) 隧道 的 虚拟 机 分 配 的 公用 IP/ 专 用 IP 地 址 。 用 
户 必 须 指定 他 们 想 要 使 用 的 虚拟 机 模板 以 及 需要 的 虚拟 机 实例 数 、 截 止 日 期 、 实 际 时 间 和 替代 的 
网 关 地 址 。 

本 地 网 关 会 尝试 从 底层 VIE 获取 资源 。 当 这 不 可 能 时 ， 本 地 网 关 为 完成 请 求 开 始 与 远程 网 
关 谈 判 。 当 一 个 网 关 安排 虚拟 机 时 ， 它 将 访问 信息 发 送 给 请 求 者 网 关 。 最 后 ， 管 理 器 配置 虚拟 
BL. 设置 SSH 通道 ， 并 在 虚拟 机 上 执行 任务 。 根 据 对 等 的 政策 ， 每 个 网 关 调 度 器 使 用 保守 的 回填 
来 安排 请 求 。 当 调度 器 不 能 立即 使 用 本 地 资源 启动 请 求 时 ， 将 启动 重 定 向 算法 。 

例 4.6 关于 Grid’5000 上 InterGrid 测试 床 的 实验 

墨尔本 研究 组 构造 了 两 个 实验 来 评估 InterGrid 体系 结构 。 第 一 个 实验 通过 测量 ICC 如 何 利 
用 对 等 安排 管理 负载 来 评估 分 配 决 策 的 性 能 。 第 二 个 实验 考虑 其 在 部 署 包 任务 应 用 程序 方面 的 
效力 。 实 验 是 在 法 国 实验 网 格 平台 Grid’5000 F247, Grid’5000 由 横 跨 法 国 的 9 个 网 格 站 点 上 的 

[245] 4 792 个 处 理 器 核心 组 成 。 每 个 网 关 代 表 一 个 Grid’5000 站 点 ， 如 图 4-28 所 示 。 

为 防止 干扰 真正 Grid5000 用 户 的 网 关 ， 执 行 模拟 的 虚拟 机 管理 器 来 实例 化 虚构 的 虚拟 机 。 
模拟 主机 的 数目 受 每 个 站 点 的 核 数 限 制 。 站 点 间 的 负载 被 均衡 配置 。 被 请 求 的 虚拟 机 的 最 大 数 
目 不 超过 任何 网 站 中 的 核 数 。 负 载 特性 如 图 4-29 所 示 。 黑 色 表 示 每 个 网 格 站 点 的 负载 。 中 灰色 
的 条 形 图 显示 网 关 将 请 求 重 定向 到 另 一 个 网 关 时 的 负载 。 深 色 条 形 图 对 应 的 是 每 个 网 关 接 受 其 
他 网 关 的 负载 量 。 灰 色 条 形 图 表示 重 定向 的 负载 量 。 结 果 显示 这 种 负载 策略 可 以 平衡 9 个 站 点 
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图 4-28 位 于 法 国 9 个 城市 的 Crid5000 之 上 的 InterGrid 测试 床 
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图 4-29 Gird’5000 系统 资源 站 点 中 4 个 网 关 的 云 负 载 结果 
注 : 由 Constanzo、Assuncao 和 Buyya 提供 [21] 。 


的 负载 。Rennes， 一 个 负载 繁重 的 站 点 ， 得 益 于 绪 视 其 他 网 关 ， 网 关 将 其 很 大 的 负载 份额 重 定向 


到 其 他 网 站 。 


4.5.4 云 资 源 的 全 球 交 易 


为 了 支持 一 大 批 来 自 世 界 各 地 的 应 用 服务 消费 者 ， 云 基础 设施 提供 商 〈 即 IaaS 提供 商 ) 在 
以 提供 宛 余 性 ， 并 确保 站 点 故障 情况 下 的 可 靠 性 。 例 如 ， 亚 马 逊 在 美 
。 然 而 ， 目 前 亚马逊 期 望 它 
的 云 客户 ( 即 SaaS 提供 商 ) 提出 更 喜欢 将 他 们 的 应 用 服务 托管 在 哪里 。 亚 马 逊 不 提供 无 颖 /自动 


各 个 地 方 建立 了 数据 中 心 ， 


国 和 欧洲 都 有 数据 中 心 ， 


如 在 美国 东海 岸 有 一 个 ， 在 西海 岸 也 有 一 个 


机 制 来 缩放 托管 在 多 个 地 区 分 布 式 数据 中 心 的 服务 。 


这 种 方法 有 许多 缺点 。 第 一 ， 云 客户 很 难 预先 确定 承载 其 服务 的 最 佳 位 置 ， 因 为 他 们 可 能 不 
知道 他 们 服务 的 消费 者 的 来 源 。 第 二 ，SaaS 提供 商 可 能 不 能 满足 不 同 地 区 消费 者 的 服务 质量 期 
望 。 这 就 需要 建立 数据 中 心 或 支持 跨 多 个 区 域 动态 缩放 应 用 程序 的 提供 商 间 无 颖 联合 


显示 墨尔本 研究 组 提出 的 InterCloud 体系 结构 的 高 级 别 组 件 。 





o 图 4-30 
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图 4-30 通过 中 介 的 云 间 云 资源 交易 
注 ， 由 墨尔本 大 学 R Buyya 等 人 提供 [12] 。 


此 外 ， 没 有 单一 的 云 计 算 基 础 设施 提供 商 能 够 在 世界 各 地 所 有 可 能 的 位 置 建 立 它 的 数据 中 
心 。 因 此 ， 云 应 用 程序 服务 (SaaS) 提供 商 将 很 难 满 足 他 们 所 有 消费 者 的 QoS 期 望 。 所 以 ， 他 们 
想 要 利用 多 个 云 基础 设施 服务 提供 商 的 服务 来 为 其 特定 消费 者 的 需求 提供 更 好 的 支持 。 这 种 需 
求 经 常 出 现在 具有 全 球 操作 和 应 用 〈 如 互联 网 服务 、 媒 体 托 管 和 Web 2.0 应 用 ) 的 企业 中 。 因 
此 ， 需 要 建立 云 基础 设施 服务 提供 商 联合 会 ， 以 为 不 同 的 云 提供 商 提供 无 颖 服务 配置 。 为 此 ， 墨 
尔 本 大 学 的 Cloudbus 项 目 提出 了 InterCloud 体系 结构 52 ， 这 个 体系 结构 支持 中 介 和 跨 多 个 云 缩 
放 应 用 程序 的 云 资 源 交 换 。 

通过 实现 InterCloud 体系 结构 原理 与 分 配 机 制 ， 云 提供 商 将 可 以 根据 从 其 他 云 提供 商 租用 的 
可 用 计算 和 存储 容量 峰值 来 动态 扩大 或 调整 其 资源 配置 容量 。 通 过 经 营 租赁 联邦 ， 调 配 资源 ， 
Salesforce. com 是 市 场 导 向 资源 服务 的 一 个 例子 ， 它 通过 市 场 竞价 来 协商 完成 SLA 合约 ， 该 公司 
利用 虚拟 化 技术 提供 按 需 的 、 可 靠 的 、 成 本 效益 高 的 高 质量 服务 。 

Salesforce. com 的 系统 包括 客户 端 中 介 和 支持 云 实用 程序 驱动 联盟 的 云 : 应 用 程序 调度 、 资 源 
分 配 和 负载 迁移 。 体 系 结构 紧密 耦合 行政 和 拓扑 上 分 布 式 存储 和 计算 的 能 力 。 通 过 虚拟 化 技术 ， 
该 云 交 换 (CEx) 作为 做 市 商 汇 集 服 务 生产 者 和 消费 者 。 它 从 应 用 中 介 育 集 基 础 设施 的 需求 ， 并 
根据 是 前 云 协调 员 发 布 可 用 供应 评估 这 些 需 求 。 它 支持 基于 竞争 经 济 模型 (如 离 品 市 场 和 拍卖 ) 
的 云 服 务 交易 。CEx 允许 参与 者 根据 合适 的 出 价 找到 提供 商 和 消费 者 。 这 种 市 场 使 服务 可 以 商品 
化 ， 从 而 为 基于 SLA 的 交易 创建 动态 市 场 基础 设施 做 准备 。SLA 制定 双方 奖励 和 惩罚 的 协议 。 
对 违反 预期 商定 的 标准 提供 服务 的 详细 规则 。 市 场 内 银行 系统 的 可 用 性 确保 参与 者 之 间 与 SLA 
有 关 的 金融 交易 在 安全 和 可 靠 的 环境 中 进行 。 
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46 云 安全 与 信任 管理 


服务 提供 商 与 云 用 户 之 间 的 信任 缺乏 阻碍 了 云 计 算 按 需 提供 服务 的 全 球 化 进程 。 之 前 已 
开发 出 的 信任 模型 主要 用 于 保护 eBay 和 亚马逊 提供 的 电子 商务 和 在 线 商 店 。 由 于 将 用 户 应 用 
完全 留 给 云 提 供 商 面临 着 PC 和 服务 器 用 户 方面 的 巨大 阻力 ，Web 服务 和 云 服 务 对 信任 和 安全 
的 需求 变 得 越 来 越 强烈 。 因 为 云 平 台 缺 乏 隐 私 保 护 、 安 全 保障 和 版 权 保护 ， 用 户 变 得 日 益 担 
忧 。 信 任 不 仅仅 是 一 个 纯 技 术 问题 ， 也 是 社会 问题 。 但 是 这 个 社会 问题 可 以 通过 技术 手段 得 
到 有 效 解 决 。 

从 常理 来 说 ， 在 网 络 应 用 中 ， 技 术 可 以 加 强 信 任 、 公 平 、 信 誉 、 信 用 和 保险 等 。 云 作为 一 个 
虚拟 环境 ， 提 出 了 新 的 安全 威胁 ， 比 传统 的 客户 端 / 服 务 器 配置 所 包含 的 安全 威胁 更 难 。 为 解决 
这 些 信 任 问 题 ， 本 节 提 出 了 一 种 新 的 数据 保护 模型 。 在 许多 情况 下 ， 可 以 将 该 模型 扩充 至 P2P 
网 络 和 网 格 系统 中 来 保护 云 和 数据 中 心 。 

4.6.1 云 安全 的 防御 策略 

健康 的 云 生 态 系 统 应 使 用 户 免 受 虐 待 、 袭 击 、 欺 骗 、 攻 击 、 病 毒 、 亡 言 、 色 情 、 电 子 垃圾 、 
隐私 和 盗版 等 侵害 。 本 节 描 述 IaaS、PaaS 和 SaaS 三 种 云 服 务 模型 的 安全 需求 ， 这 些 安全 模型 基 
于 提供 商 和 用 户 之 间 的 不 同 SLA。 

4.6.1.1 基本 的 云 安全 

需要 的 三 个 基本 的 云 安全 强制 策略 分 别 为 : 一 是 数据 中 心 的 设施 安全 要 求全 年 的 在 线 安全 ， 
为 此 通常 会 部 署 生物 扫描 器 、CCTV (闭路 电视 ) 、 移 动 探 测 、 捕 人 陷阱 ; 二 是 网 络 安全 要 求 容 
错 外 部 防火 墙 、 人 侵 检 测 系统 和 第 三 方 漏洞 评定 ;三 是 平台 安全 要 求 SSL 和 数据 解密 、 严 格 的 密 
码 策略 和 系统 信任 认证 。 图 4-31 显示 了 云 模型 的 映射 ， 其 中 ， 在 不 同 的 云 操作 级 别 部 署 了 相应 
的 安全 指标 。 

云 中 的 服务 器 可 以 是 物理 机 器 ， 也 可 以 是 虚拟 机 。 用 户 接口 用 于 请 求 服务 。 配 置 工具 从 云 中 
将 系统 抽取 出 来 满足 请 求 的 服务 。 一 个 安全 感知 的 云 体 系 结构 必须 具备 安全 措施 。 基 于 恶意 软 
件 的 攻击 (如 网 络 蠕虫 、 病 毒 和 DDoS 攻击 ) 利用 系统 漏洞 ， 损 害 了 系统 功能 或 为 侵入 者 提供 了 
对 敏感 信息 的 非 授 权 访问 。 因 此 ， 安 全 防御 需要 保护 所 有 集群 服务 器 和 数据 中 心 。 这 里 是 一 些 需 a 
要 特殊 安全 保护 的 云 组 件 : 

。 保护 服务 器 免 受 蠕 虫 、 病 毒 等 恶意 软件 的 攻击 。 

© 保护 虚拟 机 hypervisor 免 受 基 于 软件 的 攻击 和 漏洞 问题 。 

。 保护 虚拟 机 和 监视 器 免 受 服务 中 断 和 拒绝 服务 攻击 。 

。 保护 数据 和 信息 免 受 失窃 、 损 坏 和 自然 灾害 等 意外 。 

。 提供 对 关键 数据 和 服务 的 认证 和 授权 访问 。 

4.6.1.2 虚拟 机 的 安全 挑战 

如 上 一 章 所 述 ， 传 统 的 网 络 攻 击 包 括 缓 冲 溢出 、 拒 绝 服 务 攻击 、 间 谍 软 件 、 恶 意 软 件 、 内 核 
型 蠕虫 病毒 、 木 马 和 蠕虫 。 在 云 环境 中 ， 新 攻击 可 能 来 自 hypervisor 恶意 软件 、 客 户 突 跃 和 劫持 
或 虚拟 机 内 核 型 蠕虫 病毒 。 另 一 类 攻击 是 虚拟 机 迁移 中 的 中 间 人 攻击 。 通 常 来 讲 ， 被 动 攻击 窃取 
敏感 数据 或 密码 ; 主动 攻击 则 控制 内 核 数据 结构 ， 主 要 会 对 云 服务 器 造成 损害 。 人 侵 检测 系统 可 
以 是 基于 网 络 的 人 侵 检测 系统 ， 也 可 以 是 基于 主机 的 人 侵 检测 系统 。 程 序 监 视 可 以 用 于 控制 或 
验证 代码 的 执行 情况 。 其 他 防御 技术 包括 使 用 RIO 动态 优化 基础 设施 或 VMware 的 vSafe 和 
vShield 工具 ， 以 及 针对 hypervisor 的 安全 合 规 和 Intel 的 vPro 技术 ， 还 有 一 些 则 使 用 更 坚固 的 操作 
系统 环境 或 使 用 隔离 的 执行 和 沙 盒 。 
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云 服 务 模型 
不 同 云 服务 级 别 所 需 的 安全 、 隐 私 和 版 权 保 护 指标 







| 二 进 制 分 析 、 扫 描 程序 、 网 络 应 
- 应 用 程序 防火墙、 交易 安全 、 版 权 保护 


遗失 数据 保护 、 通 用 日 志文 件 、 数 
- 数据 /信息 据 库 活动 、 监 视 、 加 密 、 数 据 染 色 
(水 印 ) 


数据 ”内容 “as 


| 政府 风险 管理 与 合 规 治 理 ， 识 别 和 
=> tz 访问 管理 ， 虚 拟 机 ， 补 丁 管理 





pon = pe 网 络 网 络 人 侵 检测 和 防御 系统 ， 防 火 墙 ， 
数据 连接 与 传送 数据 处 理 信息 ， 反 DDoS，QoS，DNSSEC 


入侵 检测 与 防御 ， 基 于 主机 的 防火 墙 ， 
en e 完整 性 和 消防 /日 志 管理 ， 加 密 ， 掩 膜 
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' 首 字 母 缩 略 词 : 
PaaS 1 IPS: 入 侵 防 御 系统 
ee : RoT: 可 信 根 
! SaaS i DDoS: ”分布 式 拒绝 服务 
a ! DNSSEC: DNS 安全 扩展 
QoS: 服务 质量 
a) 云 服务 模型 b) 安全 、 隐 私 和 版 权 保护 指标 





图 4-31 云 服务 模型 ( 左 图 a) 和 相应 的 安全 指标 BR b); laS 处 于 最 内 层 ，PaaS 处 于 中 间 
Z, SaaS 处 于 最 外 层 ， 包 括 所 有 的 硬件 、 软 件 、 数 据 集 和 网 络 资源 
注 ; 由 Hwang 和 Li(36] 提供。 


4.6.1.3 AREA 

虚拟 机 加 强 了 云 的 安全 性 。 但 是 ， 虚 拟 机 添加 了 额外 一 层 软 件 ， 该 层 软 件 成 为 一 个 失效 的 单 
点 。 通 过 虚拟 化 技术 ， 一 台 物 理 机 器 可 以 分 为 多 个 虚拟 机 〈 例 如 ， 服 务 器 合并 ) 。 这 为 每 台 虚 拟 
机 提供 了 更 好 的 安全 隔离 性 ， 并 且 每 个 分 区 可 以 免 受 来 自 其 他 分 区 的 拒绝 服务 攻击 。 一 台 虚 拟 
机 中 的 安全 攻击 被 隔离 并 且 包 含 在 该 虚拟 机 之 中 ， 不 会 影响 其 他 虚拟 机 。 表 4-9 列举 了 针对 公有 
云 和 数据 中 心 的 8 个 安全 保护 机 制 。 虐 拟 机 故障 不 会 传播 给 其 他 虚拟 机 ; 虚拟 机 hypervisor 使 用 
完整 的 客户 隔离 提供 了 客户 操作 系统 的 能 见 性 ; 虚拟 机 的 含 错 和 故障 隔离 提供 了 一 个 更 加 安全 
和 和 鲁 棒 的 环境 ; 恶意 人 侵 可 能 会 破坏 重要 的 主机 、 网 络 和 存储 资源 ; 路 由 器 、 网 关 和 分 布 式 主机 
中 出 现 的 网 络 异 常 可 能 会 中 止 云 服务 ; 信任 协商 通常 在 SLA 层 进行 ; 公共 密 钥 基 础 设施 (PKI) 
服务 可 扩张 至 数据 中 心 信誉 系统 ; 必须 包括 蠕虫 和 分 布 式 拒绝 服务 攻击 。 由 于 缺 省 情况 下 ， 所 有 
数据 和 软件 被 共享 ， 所 以 在 云 中 更 难保 证 安全 。 
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表 4-9 云 /数据 中 心 的 物理 和 信息 安全 保护 






































保护 机 抽 简要 描述 和 部 署 建议 
E 选择 无 风险 位 置 ， 强 制 构建 安全 人 性。 如 免 窗户 ， 保 证 站 点 四 周 的 缓冲 区 ， 具 
安全 数据 中 心 和 计算 机 构件 备 炸弹 探测 、 摄 像 监测 、 抗 震 等 功能 特征 
给 、 络 连接 、 独 立 站 点 多 个 数据 库 、 数 据 二 致 性 
在 多 个 站 点 合用 元 作 没 和 电力 和 和 交代 备用 网 络 连 接 、 独 立 站 点 多 个 数据 库 、 数 据 一 致 性 
使 用 交叉 认证 在 不 同 数据 中 心 的 公共 密 铀 基础 设施 域 之 间 转 委 信 托 。CA 之 
信任 授权 与 协商 间 的 信任 协商 需 解 决策 略 冲突 

蠕虫 抑制 与 分 布 式 拒绝 服务 攻击 | ”为 确保 所 有 数据 中 心 和 云 平 台 的 安全 ， 必 须 使 用 互联 网 鳄 虫 抑制 和 分 布 式 拒 

防御 绝 服务 攻击 的 分 布 式 防御 
BN 信 痊 系统 可 以 采用 POP 技术 构建 ， 可 以 构建 个 从 数据 中 心 到 分 布 式 文件 系 

数据 中 心 信誉 系统 统 的 信誉 系统 层次 结构 
在 文件 或 对 象 级 的 细 粒 度 访问 控制 ， 这 在 防火 墙 和 人 侵 检测 系统 之 上 进一步 
细 粒 度 文件 访问 控制 ingen te 
MEUR SBE WMG a. RRAEAA. IERORIE,. TERNS 
ear 使 用 双重 认证 、 生 物 识别 、 人 侵 检测 和 灾难 恢复 ， 通 过 数据 水 印 、 数 据 分 类 
等 强制 隐私 





4.6.1.4 使 用 虚拟 化 的 防御 

虚拟 机 与 物理 硬件 进行 了 分 离 。 整 个 虚拟 机 可 以 被 表示 为 软件 组 件 ， 可 以 被 看 做 二 进 制 或 
数字 数据 。 虚 拟 机 很 易于 保存 、 克 隆 、 加 密 、 移 动 或 恢复 。 虚 拟 机 使 得 高 可 用 性 和 更 快 的 灾难 恢 
复 成 为 可 能 。 许 多 研究 者 “建议 通过 虚拟 机 在 线 迁移 来 构造 分 布 式 入 侵 检 测 系 统 (Distributed 
Intrusion Detection System，DIDS) ， 多 个 用 于 入 侵 检测 系统 的 虚拟 机 可 以 部 署 在 包括 数据 中 心 的 
不 同 资源 站 点 。DIDS 设计 要 求 在 PKI 域 之 间 进 行 信任 协商 。 在 设计 时 间 和 周期 性 更 新 时 必须 解 
决 安全 策略 冲突 。 

4.6.1.5 隐私 与 版 权 保 护 

用 户 在 实际 系统 集成 之 前 获得 一 个 可 预测 的 配置 。 雅 虎 的 Pipes 是 轻 量 级 云 平 台 的 一 个 很 好 
例子 。 使 用 共享 文件 和 数据 集 ， 隐 私 、 安 全 及 版 权 数据 可 能 在 一 个 云 计算 环境 中 被 泄露 。 用 户 想 
要 在 一 个 能 提供 许多 有 用 工具 来 在 大 数据 集 之 上 构建 云 应 用 的 软件 环境 中 工作 。 谷 歌 平台 实质 
上 使 用 内 部 软件 来 保护 资源 。 亚 马 逊 的 了 C2 使 用 HMEC 和 X. 509 认证 安全 资源 。 在 云 环 境 中 必 
须 保 护 浏览 器 发 起 的 应 用 程序 软件 。 下 面 是 安全 云 需要 具备 的 一 些 安 全 特征 ， 

© 完全 支持 安全 Web 技术 的 动态 Web 服务 。 

。 通过 SLA 和 信誉 系统 在 用 户 和 提供 商 之 间 建 立信 任 。 

。 有 效 的 用 户 识别 管理 和 数据 访问 管理 。 

。 单 点 登录 /注销 功能 降低 安全 强制 开销 。 

。 通过 主动 执法 确保 审计 和 版 权 合 规 。 

。 将 数据 操作 的 控制 从 云 环 境 移 到 云 提供 商 。 

。 在 共享 环境 中 保护 敏感 信息 和 校准 信息 。 

例 4.7 网 关 和 防火 墙 守护 的 云 安 全 

图 4-32 显示 了 上 典型 私有 云 环境 中 的 一 个 安全 防御 系统 。 网 关 可 以 确保 对 公众 开放 的 商业 云 
的 安全 访问 ,防火墙 提供 了 一 个 外 部 盾 。 网 关 用 HTTP、JMS、SQL、XML 和 SSL 安全 协议 等 保证 
应 用 程序 服务 器 、 消 息 队列 、 数 据 库 、 网 络 服务 客户 端 和 浏览 器 安全 。 防 御 机 制 需要 保护 用 户 数 
据 免 受 服务 器 攻击 。 用 上 户 私 有 数据 未 经 允许 不 能 泄露 给 其 他 用 户 。 E 
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一 Vordel 报 告 器 
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图 4-32 ”典型 安全 结构 ， 由 安全 网 关 和 一 个 外 部 防火 墙 共同 协作 守护 对 公有 云 / 私 有 云 的 访问 
注 : 由 Vordel 公司 提供 。 


4.6.2 分 布 式 入 侵 / 异 常 检测 

在 所 有 云 模型 中 ， 数 据 安 全 是 弱 链 。 使 用 公共 API 工具 处 理 数 据 互 锁 问 题 和 网 络 攻击 或 弊病 
需要 新 的 云 安全 标准 。 亚 马 逊 所 代表 的 IaaS 模型 对 外 部 攻击 最 为 敏感 。 基 于 角色 的 接口 工具 减 
轻 了 配置 系统 的 复杂 性 。 例 如 ，IBM 的 蓝 云 通过 一 个 基于 角色 的 Web 门户 进行 配置 。 一 个 SaaS 
系统 可 能 会 从 公有 云 平台 订购 专属 服务 。 许 多 开 公司 正在 提供 无 安全 保障 的 云 服务 。 

安全 威胁 可 能 主要 针对 运行 在 云 之 上 的 虚拟 机 、 客 户 操作 系统 和 软件 。 入 侵 检 测 系 统 则 淮 

试 阻 止 攻击 发 挥 作用 。 签 名 匹配 和 异常 检测 系统 可 以 在 用 于 建造 入侵 检测 系统 的 虚拟 机 上 实现 。 

签名 匹配 的 人 侵 检测 技术 更 为 成 熟 ， 但 需要 频繁 更 新 签名 数据 库 。 网 络 异 常 检测 则 根据 正常 流 
量 模式 检测 不 正常 的 交通 模式 ， 例 如 一 段 未 授权 的 TCP 连接 序列 。 分 布 式 人 侵 检测 系统 需要 防 
止 这 两 类 人 侵 。 

针对 DDoS 洪水 攻击 的 分 布 式 防御 

— DDoS 防御 系统 应 该 能 跨越 给 定 云 平台 覆盖 多 个 网 络 域 。 这 些 网 络 域 覆 盖 边 缘 网 络 ， 其 
中 云 资源 互 连 。DDosS 攻击 常 伴 有 广泛 的 蠕虫 。 洪 水 流量 过 大 ， 以 臻 通过 缓冲 溢出 、 磁 盘 空 间 不 
足 或 连接 饱和 可 以 使 受 攻击 服务 器 月 演 。 图 4-33a 显示 了 一 个 洪水 攻击 模式 。 这 里 ， 隐 藏 的 攻击 
者 在 底部 的 Re 路 由 器 从 许多 僵尸 向 受害 服务 器 发 起 了 攻击 。 

洪水 流量 实质 上 以 树 模式 (图 4-33b) 流动 。 连 续 的 攻击 沿 树 通 过 路 由 器 显示 出 不 正常 的 流 
量 波动 。 该 DDoS 防御 系统 基于 所 有 路 由 器 的 跳 变 点 检测 。 基 于 覆盖 网 络 域 中 探测 到 的 异常 模 
式 ， 该 机 制 在 系统 被 压 垮 之 前 探测 到 DDoS 攻击 。 这 种 探测 机 制 适用 于 保护 云 核心 网 络 ， 提 供 商 
级 协作 无 需 边 缘 网 络 的 干预 。 

例 4.8 中 间 人 攻击 

图 4-34 所 示 为 通过 一 个 安全 存在 漏 润 的 网 络 从 主机 VMM A 向 主机 VMM B 迁移 虚拟 机 的 场 
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ben DDoS 攻击 僵尸 
=> 恶意 攻击 流 






a) DDoS 攻击 的 流量 流动 模式 b ) 在 10 个 路 由 器 上 攻击 流量 树 


图 4-33 ”通过 洪水 树 上 所 有 路 由 器 的 跳 变 点 检测 DDoS 攻击 与 防御 
注 : 由 Chen、Hwang 和 Ku[15] 提供。 













虚拟 机 实例 | ad 
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主机 VMM A 












可 以 任意 修改 虚拟 机 操作 
系统 或 应 用 程序 的 状态 













从 主机 A 向 
主机 了 B 迁 移 虚 拟 机 


x 中 间 人 攻击 F 


图 4-34 通过 受到 中 间 人 攻击 威胁 的 网 络 ， 从 主机 A 向 主机 B 迁移 虚拟 机 ， 在 攻击 中 可 以 修改 虚 


景 。 在 中 间 人 攻击 中 ， 攻 击 者 可 以 看 到 被 迁移 的 讶 拟 机 内 容 ， 宅 取 敏 感 数据 ， 甚 至 修改 虚拟 机 的 
特定 内 容 (包括 操作 系统 或 应 用 程序 状态 )。 攻 击 者 主动 发 起 攻击 ， 在 迁移 虚拟 机 中 插入 一 个 基 
于 虚拟 机 的 木马 ， 可 以 在 不 知客 户 操作 系统 及 其 中 运行 的 应 用 程序 的 情况 下 破坏 迁移 进程 的 整 
个 操作 。 | 
4.6.3 数据 和 软件 保护 技术 

本 节 将 首先 介绍 保护 数据 完整 性 和 用 户 隐 私 的 数据 染色 技术 ， 然 后 将 讨论 用 来 防止 在 云 环 
境 中 广泛 分 发 软件 文件 的 水 印 。 

4.6.3.1 数据 完整 性 和 隐私 保护 

用 户 希望 有 一 个 软件 环境 ， 可 以 为 在 大 数据 集 之 上 构建 云 应 用 提供 许多 有 用 的 工具 。 除 了 
MapReduce、BigTable、EC2、3S、Hadoop、AWS、GAE 和 WebSphere2 的 应 用 软件 之 外 ， 用 户 需 
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要 一 些 使 用 云 时 的 安全 和 隐私 保护 软件 。 这 些 软 件 应 具有 如 下 特征 : 
© 认证 用 户 和 使 用 商业 账号 发 送 电子 邮件 的 特殊 API, 
254 © 保护 数据 完整 性 和 阻止 人 侵 者 或 黑客 的 细 粒 度 访问 控制 。 
255 。 保护 共享 数据 集 免 受 恶意 修改 、 删 除 或 侵犯 版 权 等 侵害 。 
。 具有 确保 ISP 或 云 服 务 提供 商 不 侵犯 用 户 隐私 的 能 力 。 
。 在 用 户 端的 个 人 防火 墙 ， 保 持 共享 数据 集 与 Java、JavaScript 和 ActiveX 等 小 程序 相隔 离 。 
。 与 云 服务 提供 商 策略 一 致 的 隐私 策略 可 以 防范 身份 盗窃 、 间 谍 软 件 和 网 络 故障 。 
。 资源 站 点 之 间 的 VPN 通道 可 以 确保 关键 数据 对 象 的 安全 传输 。 
4.6.3.2 数据 染色 和 云 水 印 技术 
使 用 共享 文件 和 数据 集 ， 隐 私 、 安 全 和 版 权 信 息 可 能 在 云 计 算 环 境 中 被 泄露 。 用 户 期 望 在 一 
个 可 信 的 软件 环境 中 工作 ， 为 了 在 受 保护 的 数据 集 之 上 构建 云 应 用 ， 该 软件 环境 能 够 提供 有 用 
的 工具 。 在 过 去 ， 水印 主 要 用 于 数字 版 权 管理 。 如 图 4-35 所 示 ， 系 统 为 每 个 数据 对 象 产 生 特 定 
颜色 。 数 据 染 色 意 味 着 为 每 个 数据 对 象 标 记 一 个 唯一 的 颜色 ， 因 而 不 同 颜色 的 数据 对 象 是 不 
同 的 。 
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图 4-35 在 数据 中 心 使 用 云 水 印 技术 进行 不 同安 全 许可 级 别 的 信任 管理 
注 : 由 Hwang fo Li [36]1 提 供 。 


为 了 与 数据 颜色 匹配 ， 对 用 户 认证 也 要 进行 染色 。 该 颜色 匹配 进程 可 以 用 于 实现 不 同 的 信 

任 管 理事 件 。 云 存储 提供 一 个 在 染色 对 象 中 产生 、 艇 人 和 抽取 水 印 的 进程 ， 感 兴趣 的 读者 可 以 进 
[256] 一 步 参考 Hwang 和 Li'*] 关 于 数据 染色 和 匹配 进程 的 论文 。 通 常 来 讲 ， 数 据 保护 由 计算 量 大 的 加 

密 或 解密 操作 完成 。 数 据 染 色 需 要 对 染色 或 脱色 数据 对 象 进行 少量 计算 。 在 云 环 境 中 ， 可 混合 使 
用 加 密 和 水 印 或 染色 技术 。 

4.6.3.3 数据 锁定 问题 和 主动 解决 方案 

云 计算 将 计算 和 数据 移 人 了 云 服 务 提 供 商 维护 的 服务 器 集群 。 一 旦 数据 进入 云 ， 用 户 就 不 
能 轻易 地 从 云 服 务 器 将 它们 的 数据 和 程序 抽取 出 来 运行 在 另 一 个 平台 上 ， 这 导致 了 数据 锁定 的 
问题 ， 阻 碍 了 云 计 算 的 应 用 推广 。 导 致 数据 锁定 的 原因 有 两 个 : 一 是 缺乏 互 操作 性 ， 每 个 云 厂 商 
有 自己 的 商业 API， 用 户 一 旦 提交 数据 ， 再 抽取 数据 则 会 受到 很 大 限制 ;二 是 缺乏 应 用 程序 兼容 
性 ， 大 部 分 计算 云 切换 云 平台 时 期 望 用 户 从 头 编写 新 的 应 用 程序 。 
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数据 锁定 的 一 种 可 能 的 解决 方法 是 使 用 标准 化 的 云 API， 这 要 求 构建 支持 OVF 的 标准 化 虚拟 
FA. OVF 是 一 个 平台 无 关 的 、 有 效 的 、 可 扩展 的 、 开 放 的 虚拟 机 格式 ， 它 使 得 有 效 的 、 安 全 
的 软件 分 发 和 便利 化 的 虚拟 机 迁移 成 为 可 能 。 使 用 OVF， 可 以 从 一 个 应 用 程序 向 另 一 个 应 用 程 
序 迁 移 数 据 。 这 将 会 提高 QoS， 使 交叉 云 应 用 程序 成 为 可 能 ， 允 许 数据 中 心 之 间 的 负载 向 用 户 特 
定 的 存储 迁移 。 通 过 部 署 应 用 ， 用 户 可 以 跨越 不 同 的 云 服务 访问 和 融合 应 用 程序 。 
4.6.4 数据 中 心 的 信誉 指导 保护 

信任 是 一 个 个 人 看 法 ,更 为 主观 ， 通 常 是 有 偏见 性 的 。 信 任 可 以 传递 ,但 在 双方 之 间 不 是 必 
须 对 称 的 。 信 誉 则 是 一 个 公共 观点 ， 更 为 客观 ， 并 且 常 依据 集结 的 大 量 观点 来 进行 评价 ， 信 誉 可 
能 会 随 着 时 间 而 发 生 改 变 。 与 以 往 的 信誉 相 比 ， 近 来 的 信誉 应 该 被 给 予 更 高 的 优先 权 。 本 节 将 对 
保护 数据 中 心 或 去 用 户 社区 的 信誉 系统 进行 回顾 。 

4.6.4.1 信誉 系统 设计 选项 

图 4-36 给 出 了 一 个 信誉 系统 设计 选项 的 示意 图 。 对 于 一 个 实体 的 特征 或 信用 情形 (如 诚实 
行为 或 可 靠 性 ) 的 公共 观点 可 以 是 一 个 人 、 一 个 代理 、 一 个 产品 或 一 个 服务 的 信誉 ， 它 代表 一 
组 人 、 代 理 和 资源 所 有 者 的 集体 评价 。 已 有 许多 主要 用 于 P2P、 多 代理 或 电子 商务 系统 的 信誉 系 


统 被 提出 。 


o wi 


图 4-36 ”社会 网 络 和 云 平 台 的 信誉 系统 设计 选项 


为 解决 云 服 务 的 信誉 系统 问题 ， 一 种 系统 的 方法 是 基于 设计 准则 和 信誉 系统 的 管理 。 图 4-36 
显示 了 近年 来 提出 的 信誉 系统 的 两 层 分 类 ， 其 中 大 部 分 被 设计 用 于 P2P 或 社会 网 络 ， 这 些 信 誉 
系统 可 以 被 转换 用 于 保护 云 计 算 应 用 程序 。 通 常 来 讲 ， 根 据 实现 方式 ， 可 以 将 信誉 系统 分 为 集中 
式 或 分 布 式 。 在 集中 式 系统 中 ， 一 个 单独 的 中 央 部 门 负 责 管理 信誉 系统 ， 而 分 布 式 模型 包括 多 个 
协同 工作 的 控制 中 心 。 可 以 联合 使 用 基于 信誉 的 信任 管理 和 用 于 保护 P2P 与 社会 网 络 的 技术 来 
共同 防卫 数据 中 心 和 云 平台 受到 公开 网 络 的 攻击 。 

集中 式 信 誉 系统 较 易 实现 ， 但 依赖 于 更 强大 和 可 信 的 服务 器 资源 ; 构建 分 布 式 的 信誉 系统 
更 为 复杂 。 分 布 式 系统 在 处 理 故 障 时 扩展 性 更 好 ， 且 更 为 可 靠 。 在 第 二 层 ， 信 誉 系统 可 以 根据 信 
誉 评价 范围 进一步 分 类 。 面 向 用 户 的 信誉 系统 集中 于 个 人 用 户 或 代理 ， 大 部 分 P2P 信誉 系统 属 
于 此 类 。 在 数据 中 心中 ,信誉 作为 一 个 整体 为 资源 站 点 建 模 ， 可 以 应 用 于 云 所 提供 的 产品 或 服 
务 。eBay、 人 谷歌 和 亚马逊 已 经 构建 了 商用 信誉 系统 ， 并 与 他 们 所 提供 的 服务 进行 连接 。 这 些 都 是 
集中 式 信誉 系统 。 

分 布 式 信誉 系统 主要 由 学 术 研 究 组 织 开 发 。Aberer 和 Despotovic! 提出 了 一 个 用 于 PP 系统 
的 信任 管理 模型 。Eigentrust 信誉 系统 由 斯 坦 福 大 学 开发 ， 使 用 了 信任 和 抢 阵 的 方法 。PeerTrust 系 
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统 由 佐治 亚 理工 学 院 开 发 ， 用 于 支持 电子 商务 应 用 。PowerTurst 系统 由 南 加 州 大 学 开发 ， 基 于 网 
络 流 的 赛 律 特征 ， 用 于 P2P 应 用 程序 。Vu 等 人 提出 了 一 个 基于 QoS 的 排序 系统 ， 用 于 P2P 交易 。 

4.6.4.2 云 的 信誉 系统 

重新 设计 前 面 提 到 的 用 于 保护 数据 中 心 的 信誉 系统 ， 为 在 P2P 网 络 之 上 的 扩展 应 用 提供 了 
新 的 机 会 。 跨 越 多 个 数据 库 检 查 数据 一 致 性 ， 版 权 保护 守护 广 域 的 内 容 分 布 。 为 将 用 户 数 据 与 特 
定 的 SaaS 程序 隔离 ， 提 供 商 尽力 维护 数据 的 完整 性 和 一 致 性 。 用 户 使 用 他 们 自己 的 数据 能 在 不 
同 服务 之 间 切 换 。 只 有 用 户 有 访问 请 求 数据 的 密 钥 。 

数据 对 象 必须 被 唯一 命名 来 保证 全 局 一 致 性 。 为 确保 数据 一 臻 性， 禁止 其 他 云 用 户 对 数据 


238 | 对 象 进行 非 授 权 性 的 更 新 。 信 誉 系统 可 以 通过 一 个 信任 覆盖 网 络 实现 。P2P 信誉 系统 的 层次 结构 
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被 建议 用 于 保护 站 点 级 的 云 资源 和 文件 级 的 数据 对 象 。 这 要 求 对 共享 资源 既 有 粗 粒 度 的 访问 控 
制 ， 又 有 细 粒 度 的 访问 控制 。 这 些 信誉 系统 在 所 有 级 别 跟 踪 安 全 缺口 。 

信誉 系统 必须 使 得 云 用 户 和 数据 中 心 都 能 获 益 。 云 计算 使 用 的 数据 对 象 存 储 在 一 个 SAN 之 
上 的 多 个 数据 中 心 之 中 。 过 去 ， 大 部 分 信誉 系统 主要 用 于 P2P 社会 网 络 或 在 线 商 店 服务 ， 这 些 
信誉 系统 可 以 被 转换 来 保护 云 中 的 云 平台 资源 或 用 户 应 用 程序 。 通 过 使 用 为 数据 中 心 特制 的 信 
誉 系统 ， 前 面 提 到 的 5 个 安全 机 制 可 以 大 幅 增强 。 

然而 ， 为 支持 虚拟 机 的 安全 克隆 ， 可 以 增加 一 个 社交 工具 ,例如 信誉 系统 。 快 照 控制 基于 定 
义 的 RPO。 用 户 需 要 新 的 安全 机 制 来 保护 云 。 例 如 ， 我 们 可 以 使 用 安全 的 信息 日 志 、 在 安全 的 
虚拟 局 域 网 上 迁移 ， 以 及 为 安全 迁移 使 用 基于 ECC 的 加 密 。 沙 盒 为 运行 中 的 应 用 程序 提供 了 一 
个 安全 的 执行 平台 。 而 且 ， 沙 盒 可 以 为 客户 操作 系统 提供 一 个 严格 控制 的 资源 集合 ， 可 以 在 这 样 
的 安全 测试 床上 测试 第 三 方 开发 者 的 应 用 程序 代码 。 

4.6.4.3 信任 的 覆盖 网 络 

信誉 表示 用 户 和 资源 所 有 者 的 评价 集合 。 用 于 P2P、 多 代理 或 电子 商务 系统 的 信誉 系统 已 经 
有 很 多 。 为 支持 可 信 的 云 服 务 ，Hwang 和 Li 建议 构建 一 个 信任 覆盖 网 络 来 建 模 数据 中 心 模块 
之 间 的 信任 关系 。 信 任 覆盖 可 以 使 用 一 个 分 布 式 哈 希 表 (Distributed Hash Table, DHT) 结构 来 
表示 ， 快 速 集结 大 量 局 部 的 信誉 分 数 来 获得 全 局 信誉 。 信 任 覆 盖 的 设计 最 初 在 文献 [ 12] 中 提出 。 
这 里 ， 为 快速 地 集结 、 更 新 和 向 所 有 用 户 散布 信誉 ， 需 要 设计 两 层 的 信任 覆盖 网 络 ， 其 构造 如 图 
4-37 所 示 。 

底层 是 用 于 分 布 式 信任 协商 和 多 站 点 信誉 集结 的 信任 覆盖 ， 该 层 控制 用 户 / 服 务 器 认证 、 访 
问 授权 、 信 任 委托 和 数据 完整 性 控制 。 顶 层 是 一 个 用 于 快速 病毒 /蠕虫 签名 生成 及 散播 和 盗版 检 
测 的 覆盖 ， 该 覆盖 便利 化 了 蠕虫 遇 制 以 及 病毒 、 蠕 虫 和 DDoS 攻击 的 人 侵 检测 系统 。 内 容 中 毒 技 
术 中 是 基于 信誉 的 ， 该 保护 机 制 可 以 在 多 个 数据 中 心 的 云 环 境 中 制止 侵犯 版 权 。 

信誉 系统 使 得 去 用户 和 数据 中 心 所 有 者 之 间 的 可 信和 交互 成 为 可 能 。 通 过 匹配 染 过 色 的 、 带 
有 颜色 的 数据 对 象 的 用 户 认证 ， 隐 私 被 强制 化 。 建 议 使 用 内 容 中 毒 来 保护 数字 内 容 的 版 权 ”' 。 
被 特殊 裁 前 过 的 安全 感知 云 体系 结构 (如 图 4-14 所 示 ) 可 以 保护 虚拟 化 的 云 基础 设施 。 提 供 的 
云 平台 的 信任 不 仅 来 自 SLA， 也 来 自 为 抵御 网 络 攻 击 的 安全 策略 和 对 抗 部 署 的 有 效 强制 执行 。 通 
过 改变 安全 控制 标准 ， 我 们 可 以 处 理 云 操作 环境 的 动态 变化 。 该 设计 致力 于 可 信 的 云 环 境 ， 以 确 
保 高 质量 的 服务 ， 其 中 包括 安全 。 

云 安全 的 趋势 是 应 用 虚拟 化 支持 数据 中 心中 的 安全 强制 。 信 誉 系统 和 数据 水 印 机 制 能 在 粗 
粒度 级 别 上 保护 对 数据 中 心 的 访问 ， 并 在 细 粒 度 的 文件 级 别 上 限制 对 数据 的 访问 。 从 长 远 来 看 ， 
需要 一 种 新 的 安全 即 服务 (SaaS), SaaS 是 个 人 人、 商业、 社区 和 政府 应 用 中 Web 规模 云 计算 被 大 
众 广 泛 接受 的 主要 技术 。 互 联网 云 无 疑 会 与 IT 全 球 化 、 有 效 的 计算 机 外 包 一 样 。 然 而 ,不同 云 
之 间 的 互 操作 性 则 依赖 于 构建 健康 云 生态 系统 的 公共 操作 标准 。 
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| 警告 漏洞 主机 | 终止 DDos 玫 击 | | 短处 侵权 | 误 用 检测 | | sann | ] 
[none | | DDoS 防御 和 盗版 防范 | | meam |} 
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图 4-37 基于 DAT 的 信任 覆盖 网 络 ， 构 建 在 多 个 数据 中 心 为 可 信 管 理 和 分 布 式 安全 强制 提供 的 云 资 
源 之 上 
注 ， 由 Hwang 和 Lit361 提 供 。 


4.7 参考 文献 与 习题 


文献 [18，32] 和 维基 百科 [79] 中 包含 关于 云 计算 的 指南 和 简介 。 维 基 百 科 [81 | 介绍 了 数据 
中 心 。Buyya、Broberg 和 Goscinski[ 10], Linthicum [47], Rittinghouse 和 Ransome [62], 以 及 
Velte 等 人 [711 这 四 本 近期 云 计 算 方面 的 书 讨论 了 云 计算 的 原理 、 范 式 、 结 构 、 技 术 和 实现 。 仓 
库 级 的 数据 中 心 在 Barroso 和 Holzle[8] 中 有 所 涵盖 。 数 据 中 心 体 系 结构 和 实现 的 相关 文章 可 以 在 
文献 [2，29 ，30 ，53 ，82 ] 中 找到 。 文 献 [ 22，28，60j] 研 究 了 绿色 代 。 关 于 云 定 义 的 争论 可 以 参 
考 文献 [25，32，49，86] 。 文 献 [31，32，44，52，61] 讨论 了 云 技术 的 收益 和 机 会 。 关 于 网 格 
对 应 云 计算 的 扩展 可 以 参考 文献 [66，83] 。 

在 服务 行业 中 ， 云 计算 利 上 疯 并存。 有 人 认为 云 计算 在 使 桌面 计算 集中 化 方面 提供 了 效率 和 
灵活 性 。 云 计算 能 够 统一 集中 式 计 算 和 分 布 式 计算 二 者 的 优势 。Barham 等 人 中 回顾 了 Xen!” 
及 其 在 云 计算 中 的 运用 。 文 献 [74] 介绍 了 VMware 恢复 方案 。 云 计算 基础 设施 在 学 术 
界 29 和 了 IT 工业 或 企业 界 "9,5 中 都 有 报告 。 面 向 高 性 能 计算 和 高 吞吐 量 计算 
的 云 技术 在 文献 [33，56，63 ，87] 中 有 所 和 研究。 文献 [14，21，41，42，67，76] 研究 了 云 计算 
的 虚拟 化 支持 。 文 献 [17，54，57，75，78] 研究 了 虚拟 机 迁移 和 灾难 恢复 。 文 献 [36，51] 涵盖 
了 云 安 全 的 内 容 。 
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Chou 在 2010 年 的 书 06 中 用 大 量 成 功 和 失败 案例 的 研究 介绍 了 商用 云 。 文 献 [23，58 ，73 ， 
80, 85, 89] 中 研究 的 信誉 系统 修改 后 可 以 用 于 保护 数据 中 心 和 云 资源 站 点 。 数 据 染 色 和 云 水 印 
在 文献 [20，36, 45，46，84] 中 有 所 研究 。 文献 [1，23，34，36，50，67] 提 出 了 用 于 云 计 算 、 
普 适 计算 和 电子 商务 应 用 的 信任 模型 。 文 献 [13,15，19，35，36，37，48 ，59，85 ，89 ] 讨论 了 
安全 性 和 隐私 问题 。 文 献 [5] 报 告 了 称 为 Open Circus 的 全 球 云 计 算 测 试 平 台 。 墨 尔 本 大 学 提供 了 
一 个 称 为 CloudSim 的 云 模拟 器 "中 。Buyya A 和 Stuer 等 人 "3 讨论 了 关于 面向 市 场 云 计算 的 
问题 。 
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习题 
4.1 绘制 一 个 表格 ， 从 以 下 4 个 角度 比较 公有 云 和 私有 云 ， 并 指出 它们 在 设计 技术 和 应 用 灵活 性 方面 的 不 
同 、 优 势 和 缺点 。 对 于 你 所 了 解 的 每 类 云 ， 给 出 几 个 平台 实例 。 
a. 技术 利用 方式 和 IT 资源 拥有 方式 
b. 数据 和 虚拟 机 资源 的 供应 方式 及 其 管理 
c. 工作 负载 分 布 方法 和 加 载 策略 
d. 安全 性 预防 措施 和 数据 隐私 保护 
4.2 描述 云 计 算 和 云 服务 中 使 用 的 如 下 技术 和 术语 。 用 一 个 具体 的 云 实例 或 案例 研究 来 解释 这 些 技术 。 
a. 虚拟 数据 中 心 
b. 绿色 信息 技术 
c. 多 租户 技术 
4.3 阅读 一 些 初创 公司 或 已 经 成 立 的 公司 开发 云 计 算 应 用 程序 的 成 功 或 失败 故事 。 在 Chou 关于 商务 计算 的 
书 中 …”' ， 将 去 服务 分 成 了 6 类 ， 下 面 一 一 列举 ,也 可 参见 图 4-23。 
软件 应 用 程序 (SaaS); Concur, RightNOW, Teleo, Kenexa, Webex, Blackbaud, Salesforce. com, 
Netsuite, Omniture, Kenexa, Vocus 
平台 服务 (PaaS): Force. com, App Engine, Postini, Facebook, MS Azure, NetSuite, IBM RC2, IBM 
BlueCloud, SGI Cyclone, eBay, Pitney Bowes 
基础 设施 服务 (IaaS ): Amazon AWS, OpSource Cloud, IBM Ensembles, Eli Lily, Rackspace cloud, 
Windows Azure, HP, Bank North, New York Times 
协作 服务 (LaaS) : Savvis, Internap、NTTCommunications、Digital Realty Trust, 365 Main 
网 络 云 服务 (NaaS): Owest, AT&T. AboveNet 
硬件 /虚拟 化 服务 (HaaS); VMware, Intel, IBM, XenEnterprise 
从 6 类 云 服务 的 每 类 中 选取 一 家 公司 ， 并 详细 、 深 入 了 解 该 公司 ， 直 接 联 系 公司 或 访问 它们 的 网 
站 。 目 的 是 报告 其 在 云 技术 方面 的 创新 、 实 施 的 良好 的 商业 理念 、 软 件 应 用 程序 开发 、 他 们 已 开发 的 
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4.4 


4.5 


4.6 


4.7 


4.8 


4.9 


4.10 


商业 模型 ， 以 及 他 们 成 功 或 失败 的 经 验 教训 。 

访问 AWS 云 网 站 。 分 别 使 用 EC2、S3 或 SQS 规划 一 个 实际 计算 应 用 。 你 需要 指定 被 请 求 的 资源 并 给 

出 亚马逊 要 收取 的 费用 。 在 AWS 平台 上 实施 设计 的 EC2、S3 或 SQS 实验 ,报告 并 分 析 测 量 到 的 性 能 

结果 。 

考虑 两 个 云 服务 系统 ; 谷歌 文件 系统 和 亚马逊 S3 。 说 明 它们 如 何 实现 如 下 设计 目标 : 在 面 对 硬 件 故障 

(特别 是 并 发 硬件 故障 ) 时 ， 确 保 数据 完整 性 并 维护 数据 一 致 性 。 

关于 面向 市 场 的 云 体系 结构 和 云 之 间 资 源 交流 ， 参 见 Buyya 及 其 同事 AR. 

a 讨论 跨 多 个 云 缩放 应 用 程序 的 原因 。 建 议 利 用 云 混 措 应 用 中 的 思想 方法 。 

b. 在 支持 IBM 和 微软 等 公司 的 商业 云 系 统 的 情况 下 ， 确 定 实现 面向 市 场 的 云 所 需要 添加 的 关键 结构 元 
素 。 

为 了 保护 SaaS, laaS 和 PaaS 的 安全 ， 给 出 两 种 硬件 机 制 和 软件 方案 ， 讨 论 它们 的 特殊 需求 和 困难 ， 以 

及 可 能 遇 到 的 限制 。 

鉴别 由 亚马逊 EC2 和 谷歌 提供 的 Iaas 服务 的 基础 设施 组 件 ， 使 用 墨尔本 大 学 开发 的 CloudSim 建 模 和 模 

拟 这 些 基 础 设施 。 开 发 一 种 跨 InterCloud 或 这 些 模拟 的 基础 设施 的 联盟 调度 应 用 程序 的 算法 。 在 这 个 

评测 中 ,通过 建 模 应 用 程序 ， 包 括 短期 应 用 (如 Web 应 用 ) 和 长 期 应 用 (如 高 性 能 计算 )， 进 行 

实验 。 

解释 与 数据 中 心 的 设计 和 管理 相关 的 下 列 术语 : 

a. 仓库 规模 数据 中 心 和 模块 化 数据 中 心 的 差异 。 

b. 研究 文献 [2，24，25 ,45，68] 中 的 三 篇 数据 中 心 体系 结构 的 论文 并 报告 对 数据 中 心 的 性 能 和 可 靠 
性 进展 的 贡献 。 

c 讨论 你 在 (b) 部 分 研究 的 这 些 数据 中 心 体系 结构 的 可 扩展 性 。 

解释 以 下 两 个 机 器 恢复 方案 中 的 差异 。 评 论 其 执行 情况 的 要 求 、 优 点 、 缺 点 和 应 用 潜力 。 

a 通过 另 一 台 物 理 机 器 来 恢复 物理 机 器 故障 。 

b. 通过 另 一 台 虚 拟 机 来 恢复 虚拟 机 故障 。 

详细 说 明 在 云 计 算 应 用 程序 中 使 用 虚拟 化 资源 的 4 个 主要 优点 。 你 的 讨论 应 从 提供 商 的 角度 和 云 用 户 
所 关注 的 应 用 灵活 性 、 成 本 效益 及 可 靠 性 来 盖 述 资源 管理 问题 。 

关于 InterGrid 网 关 (IGG) 实验 ， 回 答 以 下 问题 。 阅 读 原始 论文 中 以 更 详细 地 了 解 6.3.3 节 和 6. 3.4 节 中 构 
建 在 法 国 Grid'5000 系统 之 上 的 分 布 式 虚拟 化 云 计算 基础 设施 中 的 云 创建 和 负载 对 等 实验 。 

a 研究 IGG 软件 组 件 及 其 链接 资源 网 站 使 用 情况 的 详细 信息 。 

b. 通过 从 墨尔本 大 学 获取 ICG 软件 来 重复 在 小 规模 的 本 地 网 络 或 网 格 环境 中 进行 IGG 实验 。 

c. 使 用 从 墨尔本 大 学 的 CloudSim 模拟 器 或 你 自己 编写 的 模拟 器 重复 (b) 部 分 中 的 实验 。 

将 左 栏 中 的 名 字 或 缩写 术语 与 右 栏 中 的 具体 描述 进行 匹配 ， 左 右 栏 一 一 对 应 。 请 在 左 栏 空白 处 填 人 最 
匹配 的 描述 的 代表 性 标签 (a, b,c, ++). 











- 术语 与 左边 术语 相对 应 的 具体 描述 
-— GAE (a) 云 计 算 中 用 户 和 提供 商 之 间 签 署 的 协议 
—— CRM (b) 必须 从 基于 Windows 7 的 主机 运行 的 公有 云 
___ AWS (Cc) 主要 用 于 PaaS 应 用 的 公有 云 
—— SLA (d) 用 在 可 伸缩 的 商业 计算 应 用 程序 中 的 公有 计算 云 
____ Azure (e) SalesForce. com 构建 的 云 平 台 
___ EC2 (f) 将 数据 中 心 转换 为 云 平台 的 商业 云 操作 系统 
— 3 Cg) 在 商业 社会 最 常 使 用 的 Saas 应 用 之 一 
Force. com (h) 主要 用 于 as 应 用 的 云 平台 
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— vSphere/4 (i) 用 于 分 布 式 存储 应 用 程序 的 存储 云 服务 

___ EBS (j) 剑桥 大 学 开发 的 开源 hypervisor 

— SQL Ck) 用 在 谷歌 搜索 引擎 和 应 用 程序 引擎 中 的 分 布 式 文件 系统 
—— Chubby (1) FAP OR AP BRR EBL SE BE ba R BB 
___ XEN (m) 用 于 用 户 访问 和 使 用 关系 型 数据 库 的 Azure ARS BUR 
— GFS (a) 谷歌 应 用 引擎 中 的 分 布 式 数据 块 锁定 服务 





这 是 Al-Fare AS 对 4. 2. 2 节 中 研究 过 的 高 效 数 据 中 心 网 络 的 扩展 研究 问题 。 提 出 采用 可 扩展 的 数 

据 中 心 体系 结构 来 扩展 胖 树 的 概念 。 要 求 你 完成 以 下 任务 : 

a 研究 这 两 篇 论文 ， 并 证 明 关 于 可 扩展 性 、 有 效 路 由 以 及 与 以 太 网 、IP 和 TCP 协议 的 兼容 性 的 网 络 
特征 的 结论 。 

b 建议 改善 网 络 的 容错 能 力 、 截 面 带宽 和 基于 当今 技术 的 执行 效率 。 

前 面 已 经 介绍 了 在 线 迁移 虚拟 机 和 3.5.2 节 与 4. 3. 3 节 中 灾难 恢复 的 基本 概念 。 阅 读 文献 [16，19， 

52, 55, 72] 中 的 相关 文章 ， 并 基于 你 的 研究 发 现 回答 下 面 的 问题 : 

a 什么 需要 用 虚拟 化 支持 来 实现 虚拟 机 的 快速 克隆 ? 说 明 如 何 使 虚拟 机 克隆 能 快速 恢复 。 

b. 在 灾难 恢复 方案 的 设计 中 , RPO 和 RTO 是 什么 ? 

调查 在 云 环境 中 加 密 、 水 印 和 着 色 在 保护 数据 集 和 软件 方面 的 差异 。 讨 论 其 相对 的 优点 和 局 限 性 。 

这 是 一 个 关于 有 效 数 据 中 心 网 络 的 扩展 研究 问题 。 由 Guo SA) A Wu SA 撰写 的 论文 中 ， 提 议 

用 MDCube 网 络 模块 构建 4. 2. 4 节 图 4-13 所 示 的 元 数据 中 心 。 

a 讨论 使 用 此 网 络 在 改善 集 装 器 间 带 宽 、 降 低 互 连结 构成 本 、 减 少 缆 线 连接 复杂 性 方面 的 优点 。 

b. 验证 用 于 互 连 数 据 中 心 集 装 器 的 MDCube 网 络 设计 的 低 直 径 、 高 容量 和 容错 能 力 这 一 结论 。 

阅读 关于 云 安全 和 数据 保护 的 论文 [15，17，21，35，37，46，4 和 9，57] 。 是 否 可 以 给 出 一 些 关 于 更 

新 云 基础 设施 来 保护 云 平台 或 数据 中 心 的 数据 、 隐 私 和 安全 的 建议 ? 评价 文献 [1，25，34，36，48， 

64] 所 提出 的 用 于 保护 云 服务 应 用 程序 的 信任 模型 。 

项 一 个 层次 化 的 结构 图 将 从 裸 机 硬件 到 用 户 程 序 与 IaaS$S、PaaS 和 SaaS 云 的 关系 表示 出 来 。 在 每 层 云 

中 ， 从 你 所 知 的 主要 云 提供 商 中 简要 列举 出 具有 代表 性 的 云 服务 。 

讨论 从 虚拟 化 和 自动 化 数据 中 心 构建 云 平 台 到 提供 IaaS、PaaS 或 SaaS 服务 所 需 的 技术 。 识 别 实现 多 

租户 服务 的 硬件 、 软 件 和 网 络 机 制 或 业务 模型 。 


187 


272 





章 | 


Distributed and Cloud Computing, 1E 


面向 服务 的 分 布 式 体 系 结构 





本 章 包 括 了 两 种 主要 面向 服务 的 体系 结构 形式 : 表述 性 状态 转移 (Representational State 
Transfer, REST) 和 Web 服务 及 其 扩展 。 我 们 讨论 了 面向 消息 的 中 间 件 和 带 有 发 布 -订阅 体系 结 
构 的 企业 总 线 基础 设施 。 我 们 描述 了 两 个 应 用 程序 接口 (OGCE 和 HUBzero) ， 它 们 使 用 Web 服 
4 (portlet) 和 Web 2.0 (gadget) 技术 。 在 分 布 式 系统 中 ， 使 用 服务 注册 表 和 语义 Web/ 网 格 来 
处 理 数 据 和 元 数据 。 最 后 ， 我 们 使 用 BPEL Web 服务 标准 、Pegasus、Taverna、Kepler、Trident 和 
Swift 阐明 通用 工作 流 方法 。 


5.1 服务 和 面向 服务 的 体系 结构 


在 过 去 的 十 年 间 ， 技 术 取得 了 飞速 的 发 展 ， 至 今 仍 在 发 生 着 许多 变化 。 然 而 ， 在 这 一 片 混沌 
中 ， 根 据 服 务 来 建造 系统 的 价值 已 经 被 接受 并 成 为 大 多 数 分 布 式 系统 的 核心 思想 。 松 散 耦合 和 
支持 异 构 实 现 使 得 服务 比分 布 式 对 象 更 加 吸引 人 。Web 服务 的 发 展 帮 助 不 同类 型 的 应 用 程序 来 
交换 信息 。 除 此 之 外 ， 该 技术 也 在 访问 、 编 程 和 集成 新 旧 应 用 程序 方面 发 挥 着 越 来 越 重要 的 
作用 。 . 

1.4.1 节 介 绍 了 面向 服务 的 体系 结构 (SOA) ， 一 般 来 说 ，SOA 是 关于 如 何 设计 一 套 使 用 服务 
的 软件 系统 ， 使 其 通过 已 发 布 或 可 发 现 的 接口 使 用 新 的 或 已 有 的 应 用 。 这 些 应 用 程序 通常 发 布 
在 网 络 上 。SOA 还 由 在 使 得 服务 的 互 操 作 性 变 得 可 扩展 和 有 效 。 它 提示 支持 这 一 目标 的 体系 结构 
风格 ， 如 松 耦 合 、 发 布 的 接口 和 标准 的 通信 模型 。 万 维 网 联盟 (World Wide Web Consortium, 
W3C) 定义 SOA 为 一 种 分 布 式 系统 体系 结构 ， 具 有 以 下 典型 属性 : 

逻辑 视图 : SOA 是 实际 程序 、 数 据 库 、 商 业 流 程 等 的 抽象 逻辑 视图 ， 定 义 了 它 所 做 的 事情 ， 
通常 执行 企业 级 的 操作 。 服 务 是 依据 提供 商 代理 和 请 求 者 代理 之 间 交 换 的 消息 来 形式 化 定义 。 

消息 方向 : 提供 商 和 请 求 者 的 内 部 结构 包括 实现 语言 、 进 程 结 构 和 数据 库 结 构 。 这 些 特征 在 
SOA 中 都 经 过 精心 抽象 化 : 使 用 SOA 的 架构 ， 一 个 人 不 必 也 不 需要 知道 实现 服务 的 代理 是 如 何 
构造 的 。 这 样 做 的 一 个 关键 好 处 是 关系 到 旧 的 系统 。 不 需要 知道 代理 的 任何 内 部 结构 ， 我 们 就 可 
以 将 任何 软件 组 件 或 应 用 程序 “包装 ”在 消息 处 理 代码 中 ， 并 使 它 完全 符合 形式 化 的 服务 定义 。 

描述 方向 : 服务 由 机 器 可 执行 的 元 数据 来 描述 。 这 个 描述 支持 SOA 的 公开 本 质 : 描述 中 只 包 
括 那些 公开 可 访问 的 并 对 于 服务 应 用 来 说 很 重要 的 细节 。 服 务 语义 应 通过 其 描述 直接 或 间接 地 
文档 化 。 

。 AE: 服务 倾向 于 使 用 较 少数 量 的 操作 ， 使 用 大 而 复杂 的 消息 。 

。 网 络 方向 ; 服务 往往 是 在 网 络 上 沿 着 使 用 的 方向 ， 尽 管 这 不 是 一 个 必需 的 要 求 。 

。 平台 中 立 性 : 消息 按照 平台 中 立 性 、 标 准 化 的 格式 通过 接口 发 送 。XML 是 满足 这 个 约束 

条 件 的 最 显然 格式 。 

基于 组 件 的 模型 以 企业 内 部 流程 紧 耦 合 组 件 的 设计 和 发 展 为 基础 ， 使 用 不 同 的 协议 和 技术 ， 
如 CORBA, DCOM 等 ， 与 此 不 同 ，SOA 侧重 于 松 耦 合 的 软件 应 用 程序 ， 运 行 跨越 了 不 同 的 管理 
域 ， 基 于 通用 的 协议 和 技术 ， 如 HTTP fl XML, SOA 与 大 规模 分 布 式 系统 体系 结构 风格 的 早期 工 
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作 有 关 ， 特 别 是 REST。 如 今 ，REST 仍然 提供 一 种 复杂 的 标准 驱动 Web 服务 技术 的 替代 方法 ， 
并 在 许多 Web 2. 0 服务 中 应 用 。 下 面 将 介绍 REST 和 分 布 式 系统 中 基于 标准 的 SOA。 
5.1.1 REST 和 系统 的 系统 

REST 是 应 用 于 分 布 式 系 统 的 软件 体系 结构 风格 ， 尤 其 是 像 万 维 网 这 样 的 分 布 式 超 媒体 系 
统 。 因 为 它 的 简单 性 ， 容 易 被 客户 端 发 布 和 使 用 ，REST 最 近 受 到 谷歌 、 亚 马 逊 、 雅 虎 等 公司 ， 
尤其 是 社会 网 络 公 司 (如 Facebook 和 Twitter) 的 欢迎 。 图 5-1 所 示 的 REST 最 早 是 被 Roy Thomas 
Fielding 在 2000 年 他 的 博士 论文 中 提出 和 解释 的 ， 并 随 着 HTTP/1. 1 协议 一 起 得 到 了 发 展 。 
Roy Thomas Fielding 也 是 HTTP 规范 的 主要 作者 之 一 。REST 体系 结构 风格 基于 以 下 四 项 原则 : 








| HTTP 动 词 | 
POSTIGETIPUTIDELETE | 












pp 


o 


客户 端 N 


Ts | emg | SSE | 
T F HTTP 服 务 器 











| 











图 5-1 用 户 和 服务 器 之 间 按 照 HTTP 规范 的 一 个 简单 REST 交互 
iż: W Thomas Fielding[2] 提 供 。 


通过 URI 的 资源 标识 : REST 的 Web 服务 公开 了 一 组 资源 ， 标 识 了 与 其 客户 端 进行 交互 的 目 
标 。REST 中 信息 的 关键 抽象 是 资源 。 任 何 可 以 被 命名 的 信息 都 是 资源 ， 如 文档 、 图 像 或 临时 性 
服务 。 资 源 在 概念 上 是 到 一 组 实体 的 映射 。 每 一 个 特定 的 资源 都 由 一 个 唯一 的 名 称 所 标识 ， 更 确 
切 地 说 ， 一 个 URL 类 型 的 统一 资源 定位 符 ( Uniform Resource Identifier，URI) ， 它 为 在 组 件 的 交 
互 过 程 中 用 到 的 资源 提供 了 一 个 全 球 性 寻 址 空间 ， 也 可 以 方便 服务 发 现 。URI 可 以 被 标记 
(bookmark) ， 也 可 以 通过 超 链接 交换 ， 这 就 提供 了 更 多 的 可 读 性 和 广告 潜力 。 

统一 的 受 限 接口 : 通过 客户 端 /服务 器 可 缓存 的 协议 HTTP 标准 来 完成 与 REST 风格 的 Web 
服务 进行 交互 。 资 源 在 使 用 的 时 候 ， 要 用 到 一 组 4 个 固定 的 动词 CRUD (Create, Read, Update, 
Delete) 或 PUT、GET、POST 和 DELETE 操作 。PUT 创建 一 个 新 的 资源 ， 可 以 使 用 DELETE 销 
Sto GET 获得 一 个 资源 的 当前 状态 。POST 发 送 一 个 新 的 状态 到 资源 。 

自我 描述 的 消息 : REST 消息 包含 足够 的 信息 来 描述 如 何 处 理 消 息 。 这 使 得 中 介 机 构 不 需要 
解析 消息 内 容 就 可 以 对 消息 进行 更 多 的 操作 。 在 REST 中 ， 资 源 与 它们 的 表示 是 分 离 的 ， 这 就 使 
得 它们 的 内 容 可 以 用 多 种 不 同 的 标准 格式 (例如 HIML、XML、MIME、 纯 文本 、PDF、JPEC、 
JSON 等 ) 进行 访问 。REST 为 每 个 资源 提供 多 重 / 备 用 的 表示 。 可 以 得 到 关于 资源 的 元 数据 ， 并 
用 于 多 种 目的 ， 如 控制 缓存 、 传 输 错误 检测 、 认 证 或 者 授权 ， 以 及 访问 控制 。 

无 状态 的 交互 ; REST 的 交互 是 “无 状态 的 ”"， 意 味 着 消息 的 含义 不 依赖 于 会 话 状 态 。 无 状态 
的 通信 提高 了 可 见 性 ， 因 为 监控 系统 为 了 确定 请 求 可 靠 性 的 全 部 本 质 并 不 需要 知道 单独 的 请 求 
数据 字段 之 外 的 内 容 ， 这 样 有 利于 从 部 分 失败 中 进行 恢复 的 任务 ， 并 增加 了 可 扩展 性 ， 由 于 丢弃 
请 求 之 间 的 状态 允许 服务 器 组 件 快速 地 释放 资源 。 然 而 ， 无 状态 的 交互 可 能 会 增加 重复 数据 
(每 次 交互 开销 ) ， 从 而 降低 网 络 性 能 。 有 状态 的 交互 基于 明确 状态 转移 的 概念 。 有 一 些 技术 可 
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以 用 于 交换 状态 ， 如 UREE, cookies 和 隐藏 表单 字段 。 状 态 可 以 嵌 人 在 响应 消息 中 用 来 指向 
交互 的 未 来 有 效 状态 。 

这 种 轻 量 级 的 基础 设施 价格 低廉 且 易 于 采用 ， 其 中 服务 可 以 用 最 少 的 开发 工具 实现 。 构 建 
一 个 客户 端 与 REST 服务 进行 交互 所 需 的 负载 相当 小 ， 因 为 开发 人 员 可 以 从 普通 的 Web 浏览 器 开 
始 测试 这 种 服务 ， 而 无 需 开 发 定制 的 客户 端 软 件 。 从 操作 的 角度 来 看 ， 一 个 无 状态 的 REST Web 
服务 具有 很 好 的 可 扩展 性 ， 可 以 服务 数量 非常 庞大 的 客户 端 ， 因 为 具有 支持 高 速 缓 在、 集群 化 和 
负载 均衡 的 REST。 

REST 的 Web 服务 可 以 视 为 SOAP 栈 的 替代 ， 或 在 下 一 节 描 述 的 “大 Web 服务 ”， 因 为 它们 
的 简单 性 、 轻 量 级 本 质 以 及 与 HTTP HÆR. Œ URI 和 超 链接 的 帮助 下 ，REST 已 经 显示 出 它 有 
可 能 发 现 Web 资源 ， 而 不 需要 基于 中 心 存 储 库 登 记 的 方法 。 近 来 又 提出 了 Web 应 用 描述 语言 
(Web Application Description Language, WADL) '* FA fit XML 词汇 表 来 描述 REST 风格 的 Web ARS, 
使 得 它们 能 立即 被 潜在 客户 端 发 现 并 访问 。 不 过 ， 用 于 REST 应 用 开发 的 工具 集 还 不 多 。 此 外 ， 
受到 GET 长 度 的 限制 ， 不 允许 对 资源 URL 中 超过 4KB 的 数据 进行 编码 有 时 会 产生 问题 ， 因 为 服 
务 器 会 拒绝 这 类 了 畸形 的 URI， 其 至 可 能 前 演 。REST 不 是 一 个 标准 ， 它 是 应 用 于 大 规模 分 布 式 系 
统 的 一 个 设计 和 体系 结构 风格 。 

REST 的 体系 结构 元 素 列 在 表 5-1 中 。 其 中 融合 了 几 个 Java 框架 用 来 构造 REST 的 Web 服务 。 
一 个 轻 量 级 框架 Restle! 实现 了 REST 的 体系 结构 元 素 ， 如 资源 、 表 示 、 连 接 器 和 用 于 Web 服务 
在 内 的 任何 REST 系统 的 媒体 类 型 。 在 Restlet 框架 中 ， 客 户 端 和 服务 器 都 是 组 件 。 组 件 之 间 通 过 
连接 器 进行 通信 。 


表 5-1 REST 体系 结构 元 素 〈 摘 选 自 文献 [2] ) 

































































































REST 元 素 示 例 
一 个 超 文本 引用 的 概念 目标 
URL 
_ 表示 HTML 文档 、JPEG 图 像 、XML 等 
ER 表示 元 数据 媒体 类 型 ， 上 一 次 修改 时 间 
资源 元 数据 资源 链接 ， 别 名 ， 变 蜡 
控制 数据 如 果 -已 修改 - 由 于 ， 高 速 缓存 - 控制 
客户 端 libwww, libwww- perl 
服务 器 libwww, Apache API, NSAPI 
连接 器 高 速 缓存 浏览 器 高 速 缓存 ，Akamai 高 速 缓存 网 络 
Sb (DNS 查找 库 ) 
HTTP CONNECT 之 后 的 SSL 
Apache httpd, Microsoft IS 
组 件 网 关 Squid，CGI， 反 向 代理 服务 器 
代理 服务 器 CERN 代理 服务 器 ，Netscape 代理 服务 器 ，Gauntlet 
Netscape Navigator, Lynx, MOMspider 


Sun Microsystems 提供 的 规范 JSR-311 (JAX-RS) "4 X 7 —4H Java API， 可 以 用 来 开发 REST 
的 Web 服务 。 该 规范 提供 了 一 组 相关 的 类 和 接口 的 注解 ， 可 以 用 于 将 Java 对 象 公开 为 Web 资 
源 。 通 过 使 用 注解 ，JSR-311 提供 了 URI 和 相应 资源 之 间 ， 以 及 HTTP 方法 与 Java 对 象 方法 之 间 
的 清晰 映射 。 这 些 API 支持 范围 广泛 的 HTTP 实体 内 容 类 型 ， 包 括 HTML, XML, JSON, GIF, 
JPG 等 。Jersey' 1 是 用 来 构建 REST Web 服务 的 一 个 JSR-311 规范 的 参考 实现 。 另 外 ， 它 还 提供 了 
一 个 API， 使 得 开发 者 可 以 根据 自己 的 需要 来 扩展 Jersey, 
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例 5.1 亚马逊 S3 接口 的 REST Web 服务 

在 高 性 能 计算 系统 中 ，REST 风格 Web 服务 应 用 的 一 个 很 好 的 例子 是 亚马逊 简单 存储 服务 
(Simple Storage Service, S3) 接口 。 亚 马列 S3 是 互联 网 应 用 的 数据 存储 。 它 提供 了 简单 的 Web 
服务 ， 通 过 网 络 可 以 在 任何 时 间 从 任何 地 方 存储 和 获取 数据 。S3 保留 了 基本 实体 (“ 对 象 ”) ， 
它们 是 数据 的 命名 块 ， 和 一 些 元 数据 一 起 存储 在 称 为 “水 桶 ”的 容器 中 ,每 一 个 水 桶 都 有 一 个 DB 
唯一 的 键 值 。 水 桶 有 几 个 作用 ; 它们 在 最 高 级 上 组 织 了 亚 蕊 水 S3 的 命名 空间 ,标识 存储 和 传输 
数据 时 要 收取 费用 的 账户 ， 在 访问 控制 中 发 挥 作 用 ， 它 们 也 作为 使 用 报告 的 聚集 单元 。 亚 马 逊 
S3 提供 了 三 种 类 型 的 资源 : 一 个 用 户 水桶 列表 、 一 个 特定 的 水 桶 和 特定 的 S3 对 象 ， 可 以 通过 
https ;//s3. amazonaws. com/ | name- of- bucket} / {name-of-object| 访问 这 个 对 象 。 

这 些 资 源 可 以 通过 基本 的 HTTP 标准 操作 (GET. HEAD, PUT 4: DELETE) 来 获取 、 创 建 或 
操纵 。GET 可 以 用 来 列 出 用 户 创建 的 水 桶 、 桶 内 保留 的 对 象 或 对 象 值 及 其 相关 元 数据 。PUT 用 于 
创建 一 个 水 桶 或 者 设置 一 个 对 象 值 或 元 数据 。DELETE 用 来 删除 一 个 特定 的 桶 或 对 象 、HEAD 用 
来 获得 一 个 特定 对 象 的 元 数据 。 为 了 上 面 提 到 的 操作 ， 亚 马 了 过 S3 API 支持 寻找 水 桶 、 对 象 及 其 
相关 元 数据 ， 创 建新 的 水 桶 ， 上 传 对 象 以 及 删除 已 有 的 水 桶 和 对 象 。 表 5-2 给 出 了 用 来 创建 S3 
水 桶 的 REST RR -~ 响应 消息 语法 的 例子 。 


表 5-2 创建 S3 水 桶 的 REST 请 求 ~ 响应 示例 








REST 请 求 REST 响应 
PUT/[bucket-name] HTTP/1.0 HTTP/1.1 200 OK 
Date: Wed, 15 Mar 2011 14:45:15 GMT x-amz-id-2: VizdTviQorGtSjegl snzCZSZN+7Cnew HA, 
Authorization:AWS [aws-access-key-id]: +6sNxR3VRcUPyOSimSmosbwniss2qa 
[header-signature] x-amz-request-id: 91A8CC60F9FC49E7 
Host: s3.amazonaws.com Date; Wed, 15 Mar 2010 14:45:20 GMT 
Location: /[bucket-name] 





FAH S3 REST RE HAA A oH AR fo Mt HOY HTTP 请 求 。 一 个 典型 的 REST 操作 
包括 发 送 一 个 单独 的 HITP 请 求 到 亚马逊 S3 ， 然 后 等 待 HITP 响应 。 和 任何 HTTP 请 求 一 样 ， 发 
往 亚 马 逊 S3 的 请 求 包括 请 求 方法 、URI、 包 含有 请 求 基 本 信息 的 请 求 头 ， 有 时 还 有 查询 字符 味 
和 请求 体 。 响 应 包含 状态 码 、 响 应 头 ， 有 时 还 会 有 响应 体 。 

请 求 由 一 个 PUT 命令 和 在 S3 上 面 创建 的 水 桶 名 字 组 成 。 亚 马 逊 S3 REST API 使 用 标准 的 
HTTP 头 来 传递 认证 信息 。 授 权 头 包括 AWS Access Key ID 和 开发 者 注册 S3 Web 服务 时 签发 的 
AWS SecretAccess Key， 以 及 一 个 签名 。 为 了 实现 认证 ，AWS AccessKeyld 元 素 标识 了 收 到 开发 者 
请 求 时 用 于 计算 签名 的 密 铀 。 如 果 请 求 签 名 和 附带 签名 匹配 ， 请求 者 就 会 被 认证 通过 ， 然 后 请 求 
就 会 被 处 理 。 | 

REST 的 Web 服务 的 合成 主要 是 合成 Web 2.0 应 用 程序 ， 如 5.4 节 和 9.1.3 节 讨 论 的 “混搭 
系统 ”(mashup) 。 混 搭 系统 程序 从 现 有 基于 Web 的 应 用 程序 中 结合 了 各 种 能 力 。 关 于 混搭 系统 
的 一 个 很 好 例子 是 从 在 线 资源 库 (如 Flickr) 中 提取 图 像 ， 然 后 玖 加 在 谷歌 地 图 上 。 混 搭 系统 不 
同 于 那些 集成 的 软件 产品 ， 因 为 它们 不 是 开发 一 个 新 的 特性 到 现 有 的 工具 ， 而 是 把 现 有 工具 与 
已 经 具备 了 所 需 功 能 的 其 他 工具 集成 在 一 起 。 所 有 的 工具 都 独立 工作 ,但 是 它们 协调 地 工作 在 
一 起 ,创建 了 一 个 独特 的 定制 体验 。 


5.1.2 服务 和 Web 服务 


在 SOA 范式 中 ， 软 件 能 力 以 基于 消息 的 通信 模型 通过 松 耦 合 、 可 重用 、 粗 粒度 、 可 发 现 和 
自我 包含 的 服务 来 传递 和 使 用 。Web 已 经 成 为 一 种 利用 应 用 程序 来 连接 远程 客户 端的 媒介 ， 并 
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且 最 近 ， 集 成 互联 网 上 的 应 用 得 到 了 大 众 的 关注 。 术 语 “Web 服务 ”经 常 指 那些 自我 包含 的 、 
自我 描述 的 、 模 块 化 的 应 用 程序 ， 它 们 被 设计 来 供 网 络 上 的 其 他 软件 程序 使 用 或 访问 。 一 旦 部 署 
了 一 个 Web 服务 ， 其 他 的 应 用 和 Web 服务 就 可 以 发 现 并 激活 已 经 部 署 的 服务 〈 见 图 5-2) 。 
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服务 提供 商 SOAP 服务 请 求 者 
图 5-2 一 个 在 提供 商 、 用 户 和 UDDI 注册 表 之 间 交 互 的 简单 Web 服务 


实际 上 ，Web 服务 是 SOA 实现 的 最 常见 实例 之 一 。W3C 工作 组 "将 Web 服务 定义 为 一 个 软 
件 系统 ， 支 持 网 络 上 机 器 到 机 器 的 互 操作 交互 。 根 据 这 个 定义 ，Web 服务 有 一 个 以 机 器 可 执行 
格式 (尤其 是 Web 服务 描述 语言 (Web Services Description Language, WSDL)) 描述 的 接口 。 其 
他 的 系统 按照 使 用 SOAP 消息 描述 的 规定 方式 与 Web 服务 进行 交互 ， 典 型 的 做 法 是 使 用 带 有 
XML 序列 化 的 HTTP 结合 其 他 的 Web 相关 标准 。 组 成 目前 Web 服务 核心 的 技术 有 : 

简单 对 象 访问 协议 (SOAP) SOAP 提供 了 一 个 标准 的 封装 结构 ， 用 来 在 各 种 不 同 的 互联 
网 协议 (in SMTP. HTTP 和 FTP) 上 传输 XML 文档 。 通 过 使 用 这 样 的 标准 消息 格式 ， 异 构 的 中 
间 件 系统 可 以 实现 互 操作 。SOAP 消息 包括 一 个 称 为 信封 的 根 元 素 ， 其 中 包含 标题 : 一 个 可 以 被 
中 间 机 构 使 用 附加 的 应 用 级 元 素 扩 展 的 容器 ， 如 路 由 信息 、 认 证 、 事 务 管理 、 消 息 解析 指示 和 服 
务 质量 配置 ， 除 此 之 外 ， 还 包括 承载 消息 有 效 负载 的 体 元 素 。 基 于 描述 SOAP 消息 结构 的 XML 
模式 ， 在 发 件 人 端 被 SOAP 引擎 编组 ， 在 接收 端 解 编组 。 

Web 服务 描述 语言 (WSDL) ”WSDL 描述 了 接口 ， 即 Web 服务 支持 的 一 系列 标准 格式 的 
操作 。 它 标准 化 了 操作 的 输入 和 输出 参数 的 表示 以 及 服务 的 协议 绑 定 ， 消 息 在 线 传输 的 方式 。 使 
用 WSDL， 不 同 的 客户 端 可 以 自动 理解 如 何 与 Web 服务 交互 。 

通用 描述 、 发 现 和 集成 (Universal Description, Discovery, and Integration, UDDI ) 
UDDI 提供 了 一 种 通过 搜索 名 称 、 标 识 符 、 类 别 或 Web 服务 实现 的 规范 来 广告 和 发 现 Web 服务 的 
全 局 注册 表 。5. 4 节 将 进一步 详细 介绍 UDDI。 

SOAP 是 XML- RPC 的 扩展 和 进化 版 本 , XML-RPC 在 1999 年 推出 ”i ， 是 一 个 简单 而 有 效 的 远 
程 过 程 调用 协议 ， 它 使 用 XML 对 调用 进行 编码 ， 用 HTTP 作为 传输 机 制 。 根 据 它 的 约定 ， 过 程 
在 服务 器 上 运行 ， 它 返回 XML 格式 的 值 。 然 而 ，XML- RPC 并 不 完全 符合 最 新 的 XML 标准 。 此 
外 ， 它 并 不 允许 开发 者 来 扩展 一 个 XML- RPC 调用 的 请 求 或 响应 格式 。 因 为 XML 模式 在 2001 年 
成 为 W3C 推荐 标准 ，SOAP JJA XML 协议 工作 ，SOAP 已 经 成 为 相互 交流 的 用 户 使 用 XML 的 标 
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准 协议 。 

Web 服务 技术 和 其 他 技术 (A J2EE, CORBA, CGO 脚本 等 ) 的 主要 区 别 在 于 标准 化 ， 因 为 
它 是 基于 标准 化 的 XML， 提 供 数据 的 语言 中 立 表 示 。 大 多 数 的 Web 服务 在 HTTP 协议 上 传输 消 
息 ， 使 得 它们 成 为 互联 网 级 别 的 应 用 。 此 外 ， 与 CORBA 和 J2EE 不 同 ，Web 服务 使 用 HTTP 作为 
隧道 协议 使 得 远程 通信 可 以 穿越 防火 墙 和 代理 服务 器 。 

基于 SOAP 的 Web 服务 有 时 也 称 为 “大 网 络 服务 "号 。 我 们 在 这 一 章 的 前 面 已 经 看 到 ， 
REST 的 服务 在 HTTP 上 下 文中 也 可 以 被 认为 是 Web 服务。 基于 SOAP 的 Web 服务 交互 可 以 是 
同步 的 ， 也 可 以 是 异步 的 ， 这 样 使 得 它们 适用 于 请 求 - 响应 和 单 向 交互 模式 ， 从 而 增加 了 Web 
服务 在 失效 时 的 可 用 性 。 

5.1.2.1 WS-I tind 

A BIRS 24 BE REST Web 服务 不 同 ， 基 于 SOAP 的 Web 服务 建议 了 几 个 可 
选 的 规范 ， 用 来 定义 非 功能 化 的 需求 和 确保 消息 通信 中 某 一 级 别 的 质量 ， 以 及 可 靠 的 事务 策略 ， 如 
WS-Security’?! | WS-Agreement!™! | WS-ReliableMessaging'"’ 、WS-Transaction[2l 和 WS-Coordination'™ , 
如 图 5-3 所 示 。 





ee 




















图 5-3 WS-I 协议 栈 及 其 相关 规范 


如 上 所 述 ，SOAP 消息 采用 XML 编码 ， 这 就 要 求 所 有 自我 描述 的 数据 以 ASCII 字符 串 发 送 。 
这 个 描述 采用 了 开始 和 结束 标签 的 形式 ， 常 常 占用 了 一 半 甚 至 更 多 的 消息 字 节 数 。 使 用 XML 来 
传送 数据 会 导致 可 观 的 传送 开销 ， 增 加 4 ~ 10 们 的 传输 数据 量 “!。 而 旦 ，XML 处 理 在 计算 和 内 
存 占 用 上 都 消耗 很 大 ， 并 且 会 随 着 数据 的 处 理 总 量 和 数据 字段 的 个 数 而 增加 ， 这 就 使 得 Web 服 
务 不 适用 于 资源 受 限 的 设备 使 用 ， 如 手持 PDA 和 移动 电话 。 

通过 使 用 松 耦 合 、 可 重用 的 软件 组 件 ，Web 服务 提供 了 实时 的 软件 合成 ，5.5 节 将 进一步 介 
绍 。 通 过 使 用 Web 服务 的 商业 过 程 处 理 语言 (Business Process Execution Language for Web Service, 
BPEL4WS) ， 一 个 OASIS 推荐 的 用 于 规定 Web 服务 之 间 交 互 的 标准 化 可 执行 语言 ，Web 服务 可 
以 组 合 在 一 起 ， 生 成 更 为 复杂 的 Web 服务 和 工作 流 。BPEL4WS 是 一 个 基于 XML 的 语言 ， 构 建 在 
Web 服务 规范 之 上 ， 用 于 定义 和 管理 长 期 的 服务 编制 或 过 程 。 

在 BPEL 里 ， 商 业 过 程 是 一 个 大 粒度 的 有 状态 的 服务 ， 通 过 执行 数 个 步骤 来 完成 一 个 商业 目 
标 。 这 个 目标 可 以 是 完成 商业 事务 ， 也 可 以 是 完成 一 个 服务 作业 。BPEL 过 程 中 的 步骤 通过 执行 
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活动 (用 BPEL 语言 元 素来 表示 ) 来 完成 工作 。 这 些 活动 集中 在 激活 同伴 服务 来 完成 任务 (它们 
的 作业 ) ， 并 且 将 执行 结果 返回 到 过 程 。BPEL 使 得 各 个 公司 可 以 通过 编制 的 服务 来 自动 化 他 们 
279] 的 商业 过 程 。 在 网 格 中 ， 工 作 流 定义 为 “通过 编制 一 系列 网 格 服务 、 代 理 和 演员 而 达到 的 过 程 

自动 化 ， 它 们 必须 组 合 在 一 起 来 解决 一 个 问题 或 定义 新 的 服务 ”1。 

为 JBoss'" "1 开源 中 间 件 平台 建构 的 JBPM 项 目 ! ”1 是 一 个 关于 工作 流 管理 和 商业 过 程 运行 系统 
的 例子 。 另 外 一 个 工作 流 系 统 〈Tavernai" ”1 ) 在 生命 科学 应 用 中 得 到 了 广泛 的 运用 。 用 不 同 的 语 
言 开发 和 部 署 Web 服务 的 工具 多 种 多 样 。SOAP 引擎 有 诸如 Java 下 的 Apache Axis, C++ 下面 的 
gSOAP!"*! Python 下 面 的 Zolera Soap Infrastructure (ZSI) ®™ 以 及 Axis2/Java 和 Axis2/C。 这 些 工具 
集 都 包含 了 用 于 生成 客户 端 存根 的 SOAP 引 敬 和 WSDL 工具 ， 它 们 大 大 隐藏 了 Web 服务 应 用 开发 
和 集成 的 复杂 度 。 因 为 对 于 以 上 提 到 的 语言 没有 标准 的 SOAP 映射 ， 所 以 对 于 同一 个 对 象 两 个 不 
同 的 SOAP 实现 可 能 会 产生 不 同 的 编码 。 

作为 数据 的 标准 传输 协议 ， 因 为 SOAP 可 以 集中 XML 和 HITP 的 力量 ， 所 以 对 于 异 构 分 布 式 
计算 环境 〈 如 网 格 和 云 计 算 ) ， 为 确保 互 操作 性 ，SOAP 是 一 个 非常 吸引 人 的 技术 。 就 像 在 7.4 
节 中 所 指出 的 那样 ，OGSA 网 格 服务 是 Web 服务 的 延伸 ， 并 且 在 新 的 网 格 中 间 件 〈 如 Globus 
Toolkit 4 以 及 最 新 发 布 的 CTS 版 本 ) 中 ， 是 纯粹 的 (普通 的 ) 标准 Web 服务 。 作 为 基于 云 的 长 
期 存储 服务 ， 亚 马 逊 S3 可 以 通过 SOAP 和 REST 两 种 接口 来 访问 。 不 过 ，REST 更 适合 与 3 进行 
通信 ， 因 为 在 SOAP 应 用 程序 接口 中 处 理 大 量 二 进 制 对 象 比较 困难 ， 尤 其 是 SOAP 限制 了 它 管 理 
和 处 理 的 对 象 大 小 。 表 5-3 描述 了 一 个 SOAP 请 求 - 响应 的 例子 ， 用 来 从 S3 中 获得 用 户 对 象 。 


表 5-3 用 来 创建 S3 水 桶 的 SOAP 请 求 -响应 例子 


SOAP 请 求 SOAP 响应 
<soap:Envelope <soap: 


Envelope 
xmins: soap= “http://www.w3.0rg/2003/05/s0ap- xmins:soap=“http://www.w3.org/2003/05/s0ap- 
envelope’ envelope” 











soap:encodingStyle= 
“http:/Avww.w3.org/2001/12/soap-encoding”> 

<80 

<CreateBucket xmins="http://doc.s3.amazonaws 
.com/2010-03-15"> 

<Bucket>SampleBucket</Bucket 


soap:encodingStyle= 
“http:/Avww.w3.org/2001/12/soap-encoding’> 
<soap:Body> , 
<CreateBucket xmins=“hitp://doc.s3.amazonaws 
.com/2010-03-15"> 
<Bucket>SampleBucket</Bucket> 





<AWSAccessKeyld> <AWSAccassKeyld> 1 BSFVRAYGP1 VJEXAMPLE= 
1BOFVRAYCP1VJEXAMPLE= </AWSAccessKeyld> 
</AWSAccessKeyld> <Timestamp>2010-03-15T14:40:00.1652 
<Timestamp>2010-03-15T1 4:40:00.165Z </Timestamp> 
</Timestamp> <Signature>luyz3d3P0aTouSSdzbqaEXAMPLE 
<Signature>luyz3d3P0aTou89dzbqaEXAMPLE =</Signature> 
=</Signature> </CreateBucket> 
</CreateBucket> </soap:Body> 
</soap:Body> </soap:Envelope> 
</soap:Envelope> 
SOAP 消息 包含 应 用 程序 使 用 的 一 个 信封 ， 里 面 封 装 了 需要 发 送 的 消息 。 信 封包 括 头 和 体 模 


块 。 编 码 风 格 元 素 指 的 是 XML 模式 的 URI 地 址 ， 用 于 对 消息 元 素 进 行 编码 。SOAP 消息 中 的 每 
个 元 素 可 以 采用 不 同 的 编码 方式 ， 但 是 除非 特别 指定 ， 整 个 消息 的 编码 方式 定义 在 根 元 素 的 
XML 模式 中 。 头 部 是 SOAP 消息 的 可 选 部 分 ， 它 包含 了 上 面 提 到 的 辅助 信息 ， 在 这 个 例子 中 没有 
包含 头 部 。 

SOAP 请 求 - 响应 消息 的 体 部 分 包含 了 会 话 的 主要 信息 ， 它 是 由 一 个 或 多 个 XML 模块 来 组 成 
的 。 在 这 个 例子 中 ， 客 户 端正 在 调用 亚马逊 S3 Web 服务 接口 的 CreateBucket。 如 果 在 调用 服务 的 
时 候 发 生 错 误 ， 将 有 一 个 在 消息 体 里 含有 失效 元 素 的 SOAP 消息 转发 给 客户 端 作为 回应 ， 用 来 指 
示 协 议 级 错误 。 
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5.1.2.2 WS-* deus SOAP 头 部 标准 

在 表 5-4 中 ， 我 们 总 结 了 许多 (AH 100 条 ) 核心 SOAP 头 部 规范 中 的 一 部 分 。 它 们 有 许多 
类 别 ， 并 且 在 每 一 类 中 会 有 几 个 覆盖 标准 。 许 多 标准 在 这 一 章 中 会 详细 介绍 ， 尤 其 是 XML, 
WSDL, SOAP, BPEL, WS-Security, UDDI, WSRF 和 WSRP。WS-* 标准 的 数目 和 复杂 性 导致 使 
用 REST 而 不 是 Web 服务 的 趋势 越 来 越 强 。 通 过 自我 描述 的 消息 实现 互 操作 性 是 一 个 非常 聪明 的 
想法 ， 但 是 实践 经 验 表明 ， 创 建 满 足 性 能 要 求 的 所 需要 工具 并 缩短 实现 时 间 是 非常 困难 的 。 


表 5-4 核心 WS- "规范 包括 的 10 个 领域 
























































WS- 规范 领域 A + 
1 核心 服务 模型 XML, WSDL, SOAP 
2. 服务 互联 网 WS- Addressing, WS-MessageDelivery; Reliable WSRM; Efficient MOTM 
3. 通知 WS- Notification, WS-Eventing (发 布 - 订阅 ) 
4. 工作 流 和 事务 | BPEL, WS-Choreography, WS-Coordination 
5. 安全 WS-Security, WS-Trust, WS-Federation, SAML, WS-SecureConversation 
6. 服务 发 现 | UDDI, WS- Discovery 
7. 系统 元 数据 和 状态 WSRF, WS-MetadataExchange, WS-Context 
8. 管理 WSDM, WS-Management, WS-Transfer 
9. 策略 和 协议 WS-Policy, WS-Agreement 
10. 门户 和 用 户 接口 WSRP (远程 Portlets) 





例 5.2 WS-RM 或 WS-Reliable 消息 传递 
WS-RM 是 所 谓 的 WS- 核心 Web 服务 规范 中 发 展 最 好 的 一 个 。WS-RM 使 用 消息 实例 数量 来 
允许 目的 服务 识别 出 消息 传送 失效 (可 能 是 丢失 ,也 可 能 是 消息 乱 序 )。 在 这 方面 ，WS-RM 有 
些 复 制 了 TCP -IP 的 功能 ,但 是 它们 工作 在 不 同 的 级 别 ， 即 在 用 户 消息 级 而 不 是 TCP Se, HH 
从 源 到 目的 都 独立 于 它们 之 间 的 TCP 路 由 。 这 是 一 个 很 强大 的 想法 ， 但 是 并 没有 被 完整 开发 ， 
例如 ， 它 没有 正确 地 支持 多 播 消 息 传送 。 关 于 这 方面 的 细节 ， 请 参见 网 站 http;//en. wikipedia 
org/wiki/ WS- ReliableMessaging 。 |_| 
5.1.3 企业 多 层 体系 结构 
企业 应 用 程序 通常 使 用 多 层 体系 结构 来 封装 和 集成 各 种 功能 。 多 层 体 系 结构 是 一 种 客户 
端 /服务 器 体系 结构 ， 其 中 表述 、 应 用 处 理 和 数据 管理 是 逻辑 分 离 的 过 程 。 已 知 最 简单 的 多 层 
体系 结构 是 两 层 ， 也 就 是 客户 端 /服务 器 系统 。 传 统 的 两 层 客户 端 / 服 务 器 模型 需要 集群 化 和 
灾难 恢复 来 保证 可 靠 性 。 虽 然 在 企业 中 使 用 较 少 的 节点 会 简化 可 管理 性 ， 但 是 改变 管理 仍然 
很 困难 ， 因 为 在 修理 、 升 级 和 部 署 新 应 用 时 ， 都 需要 服务 器 下 线 。 而 且 在 胖 客户 端 环 境 下 ， 
新 应 用 和 增强 的 部 署 非 常 复杂 和 消耗 时 间 ， 从 而 降低 了 可 用 性 。 一 个 三 层 的 信息 系统 包含 以 
下 的 层次 (SUA 5-4): 
。 REE ”向 外 部 实体 描述 信息 ， 并 且 人 允许 它们 通过 提交 操作 和 获得 响应 来 与 系统 进行 
交互 。 
。 商业 /应 用 逻辑 层 或 中 间 件 ”通过 表述 层 完成 客户 端 请 求 的 实际 操作 的 程序 。 中 间 层 也 可 
以 控制 用 户 的 认证 、 访 问 资源 ， 以 及 完成 一 些 客户 端 查 询 处 理 ， 这 样 可 以 减少 数据 库 服 
务 器 的 一 些 负载 。 
。 资源 管理 层 ” 也 称 为 数据 层 ， 处 理 和 实现 信息 系统 的 不 同 数据 源 。 
实际 上 ， 三 层 系统 是 两 层 体系 结构 的 扩展 ， 其 中 应 用 逻辑 从 资源 管理 层 隔 离 出 来 1 。 到 20 
世纪 90 年 代 后 期 ， 由 于 互联 网 变 成 许多 应 用 程序 的 重要 组 成 部 分 ， 工 业界 将 三 层 模型 扩展 到 了 
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N 层 。 基 于 SOAP 的 和 REST 的 Web 服务 更 多 地 集成 到 应 用 程序 中 。 这 样 做 的 结果 是 数据 层 被 分 
为 数据 存储 层 和 数据 访问 层 。 在 非常 复杂 的 系统 中 ， 还 另外 添加 了 一 层 封装 层 ， 这 样 可 以 为 数据 
EM Web 服务 统一 数据 访问 。Web 服务 可 以 从 多 层 体系 结构 中 固有 的 隔离 性 中 得 到 好 处 ， 这 和 
大 多 数 的 动态 Web 应 用 程序 方式 基本 一 样 ” 。 








E. 
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Web 浏 览 器 客户 端 
L os 
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信息 系统 








图 5-4 一 个 三 层 的 系统 体系 结构 
注 : 由 Gustavo 等 人 提供 [23] | Springer Verlag 授权 使 用 , 2010, 


商业 人 逻辑 和 数据 可 以 被 自动 化 和 GUI 的 客户 端 所 共享 。 唯 一 的 区 别 是 客户 端的 本 质 和 中 间 
层 的 表述 。 而 且 ， 将 商业 逻辑 和 数据 访问 隔离 可 以 使 得 数据 库 具 有 独立 性 。 层 体 系 结构 的 特点 
是 应 用 程序 、 服 务 组 件 及 其 分 布 式 部 署 的 功能 分 解 。 这 样 的 体系 结构 可 以 使 Web 服务 和 动态 
Web 应 用 具有 可 重用 性 、 简 单 性 、 可 扩展 性 和 清晰 的 组 件 功 能 分 离 。 

Web 服务 可 以 被 视 作 在 中 间 件 和 应 用 集成 基础 设施 之 上 的 另 一 层 ” ， 它 允许 系统 之 间 通 过 
互联 网 以 标准 的 协议 进行 交互 。 因 为 每 一 层 可 以 独立 地 管理 或 扩展 ,使 用 NN 层 体系 结构 的 全 基 
础 设施 的 灵活 性 大 大 增强 。 下 一 节 我 们 将 描述 0GSA， 它 是 一 个 多 层 的 面向 服务 的 中 间 件 体系 结 
构 ， 描 述 了 网 格 计算 环境 的 功能 ， 并 且 嵌 人 了 Web 服务 ， 使 得 在 大 规模 的 异 构 环境 中 可 以 访问 
计算 资源 。 

5. 1.4 网 格 服务 和 OGSA 


开放 网 格 服务 体系 结构 ( Open Grid Services Architecture, OGSA) 是 全 球 网 格 论坛 (最近 
重 命 名 为 开放 网 格 论坛 (Open Grid Forum, OGF), ， 并 在 2006 年 6 月 与 企业 网 格 联盟 (Enterprise 
Grid Alliance, EGA) 合并 ) 的 OGSA 工作 组 起 草 制定 的 ， 它 是 一 个 面向 服务 的 体系 结构 ， 旨 在 
为 基于 网 格 的 应 用 定义 一 个 通用 的 、 标 准 的 和 开放 的 体系 结构 。“ 开 放 ” 指 的 是 制定 标准 的 过 程 
和 标准 本 身 。 在 OGSA 中 ， 从 注册 表 到 计算 任务 再 到 数据 资源 等 都 被 看 成 是 一 种 服务 。 这 些 可 扩 
展 的 服务 集 是 基于 OGSA 网 格 的 构成 模块 。OGSA 的 意图 在 于 : 
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© 便于 在 分 布 式 的 异 构 环 境 上 使 用 和 管理 资源 。 

。 提供 无 缝 的 服务 质量 。 

。 为 了 提供 不 同 资源 之 间 的 互 操作 性 ， 定 义 开 放 的 发 布 接口 。 

e 采用 工业 标准 的 集成 技术 。 

e 开发 实现 互 操作 性 的 标准 。 . 

© 在 分 布 式 的 异 构 环境 中 集成 、 碟 拟 化 和 管理 各 种 服务 与 资源 。 

© 提供 松 耦 合 的 可 交互 服务 ， 并 且 满 足 工业 可 接受 的 Web 服务 标准 。 

基于 0GSA， 网 格 由 少量 的 基于 标准 的 组 件 构成 ， 这 些 组 件 称 为 网 格 服务 。 文 献 [25 ] 将 网 格 
服务 定义 为 “一 个 提供 一 系列 良好 定义 接口 的 Web 服务 ， 它 满足 特定 的 规范 《用 WSDL 来 表 
示 )”。OGSA 对 于 网 格 服务 给 出 了 一 个 高 层 的 体系 结构 观点 ， 但 是 对 于 描述 网 格 服务 并 没有 给 出 
太 多 的 细节 。 它 非常 简要 地 概括 了 网 格 服务 应 该 有 什么 。 网 格 服务 实现 了 一 个 或 多 个 接口 ， 每 个 
接口 定义 了 一 系列 操作 ， 这 些 操 作 是 通过 交换 事先 定义 好 的 基于 开放 网 格 服务 基础 设施 (Open 
Grid Services Infrastructure, OGSI) ® 的 消息 序列 来 调用 。0GSI 也 是 由 全 球 网 格 论坛 开发 的 ， 它 
给 出 了 网 格 服务 的 形式 化 技术 规范 。 

网 格 服务 接口 对 应 于 WSDL 里 面 的 端口 类 型 〈portTypes) 。 网 格 服务 支持 的 端口 类 型 集合 ， 
以 及 一 些 和 版 本 有 关 的 附加 信息 ， 都 是 在 网 格 服务 的 服务 类 型 (serviceType) 中 指定 ， 服 务 类 型 
是 OGSA 定义 的 一 个 WSDL 扩展 元 素 。 接 口 完 成 了 发 现 、 动 态 服 务 创 建 、 生 命 期 管理 、 通 知 和 可 
管理 性 ， 而 约定 解决 的 是 命名 和 可 升级 性 。 网 格 服务 的 实现 可 以 定位 在 和 已 有 的 IT 基础 设施 集 
成 的 本 地 平台 设施 上 。 

根据 文献 [25] OGSA 服务 可 以 分 为 7 个 大 类 ， 它们 按照 网 格 场景 中 经 常用 到 的 性 能 来 定 
Mo. 图 5-5 给 出 了 OGSA 体系 结构 。 这 些 服务 总 结 如 下 : 

。 基础 设施 服务 ” 指 一 系列 的 公共 功能 ， 例 如 命名 ， 通 常 为 更 高 层 提供 服务 。 

。 运行 管理 服务 ”与 启动 和 管理 任务 这 些 问 题 有 关 ， 包 括 放置 、 配 置 和 生命 周期 管理 。 任 
务 可 以 是 简单 的 作业 、 复 杂 的 工作 流 或 合成 的 服务 。 
数据 管理 服务 ”用 来 移动 数据 到 需要 它 的 地 方 、 维 护 复 制 的 副本 、 运 行 查询 和 更 新 ， 以 
及 转换 数据 到 新 的 格式 。 这 些 服务 必须 要 解决 一 些 问题 ， 如 数据 的 一 致 性 、 持 久 性 和 完 
整 性 。OGSA 数据 服务 是 实现 了 一 个 或 多 个 基本 数据 接口 的 Web 服务 ， 使 得 在 分 布 式 环 
境 下 能 够 访问 和 管理 数据 资源 。 三 个 基本 的 数据 接口 (数据 访问 、 数 据 工厂 和 数据 管 
理 ) 定义 了 用 来 表示 、 访 问 、 创 建 和 管理 数据 的 基本 操作 。 
资源 管理 服务 ”为 网 格 资源 提供 管理 功能 , 管理 资源 本 身 、 将 资源 作为 网 格 组 件 管理 ， 
以 及 管理 OGSA 基础 设施 。 例 如 ， 可 以 根据 需求 来 监控 、 预 留 、 部 署 和 配置 资源 ， 以 便 
满足 应 用 程序 的 服务 质量 要 求 。 它 也 同样 需要 网 格 资源 和 服务 的 信息 模型 (语义) 和 数 
据 模 型 (表示 ) 。 
安全 服务 ”便于 一 个 (虚拟 的 ) 组 织 内 有 关 安 全 的 策略 得 以 强制 执行 ， 支 持 安全 的 资源 
共享 。 认 证 、 授 权 和 完整 性 保护 是 这 些 服务 提供 的 基本 功能 。 
信息 服务 ”提供 关于 网 格 及 其 构成 资源 信息 的 有 效 产 生 和 和 访问。 术语“ 信息 ” 指 的 是 用 
于 状态 监控 的 动态 数据 或 事件 ， 用 于 发 现 的 相对 静态 数据 ， 以 及 任何 日 志 数 据 。 排 除 错 
i (Troubleshooting) 只 是 这 些 服务 提供 的 信息 的 -一 个 可 能 应 用 。 
自我 管理 服务 ”支持 对 于 一 系列 服务 (或 者 资源 ) 的 服务 级 实现 ， 并 且 要 尽 可 能 的 自动 
化 ， 以 减少 管理 系统 的 代价 和 复杂 度 。 拥 有 和 操作 IT 基础 设施 时 ， 复 杂 度 会 不 断 增加 ， 
为 了 解决 这 个 问题 ， 这 些 服 务 是 必要 的 。 
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图 5-5 OGSA 体系 结构 
iz: 由 Foster 等 人 提供 [24] | http://www. ogf. org/documents/GFD. 80. pdf, 


OGSA 被 许多 的 网 格 项 目 采纳 为 参考 网 格 体系 结构 。2002 年 1 月 29 日 ,在 阿 根 那 国家 实验 
室 的 Globus 工具 集 指导 课 上 ， 演示 了 第 一 个 网 格 服务 的 原型 实现 。 从 那 以 后 ，Globus 工具 集 3.0 
和 3.2 分 别提 供 了 在 开放 网 格 服务 基础 设施 之 上 的 OGSA 实现 。 网 格 服务 的 两 个 主要 性 质 是 瞬 态 
性 和 有 状态 性 。 瞬 态 网 格 服务 的 创建 和 销毁 可 以 动态 地 实现 。0GSA 网 格 服务 的 创建 和 生命 期 按 
照 “ 工 厂 模式 ”进行 处 理 ， 这 方面 的 内 容 将 在 7.3.1 节 中 介绍 。Web 服务 技术 设计 用 于 支持 松 
耦合 、 粗 粒度 的 动态 系统 ， 所 以 它 并 不 能 满足 所 有 的 网 格 需求 ， 比 如 保持 状态 信息 ， 因 此 ， 它 也 

[285] 不 能 完全 支持 OGSA 设计 支持 的 广泛 分 布 式 系统 。 

OGSA 应 用 了 一 系列 WSDL 扩展 来 表示 一 些 标识 符 ， 这 些 标 识 符 对 于 在 任何 系统 之 上 实现 网 
格 服务 实例 都 是 非常 必要 的 。 这 些 扩展 由 OGSI 来 定义 。 一 个 关键 的 扩展 是 网 格 服务 参考 : 对 于 
特定 网 格 服务 实例 的 一 个 网 络 级 指针 ， 这 可 以 让 远程 的 客户 端 应 用 程序 访问 这 个 实例 。 第 7 章 将 
介绍 这 些 扩展 ， 例 如 网 格 服务 句柄 (Grid Service Handle, GSH) 和 网 格 服务 参考 (Grid Service 
Reference，GSR) 。 这 些 扩展 用 繁 长 的 规范 说 明 有 状态 的 网 格 服务 和 OGS 缺点 。 这 个 问题 来 自 于 
和 当今 的 一 些 Web 服务 工具 不 兼容 ， 以 及 从 面向 对 象 中 吸收 了 很 多 概念 。 

和 Web 服务 的 本 质 不 同 ， 导 致 了 网 格 和 Web 服务 社区 之 间 的 紧密 合作 。 作 为 共同 努力 的 结 
FR, Web 服务 资源 框架 (Web Services Resources Framework, WSRF)'*’) | WS-Addressing!”*! 和 WS- 
Notification (WSN) 规范 已 经 提交 给 了 OASIS。 所 以 ， 为 了 有 利于 新 的 Web 服务 标准 ， 尤 其 是 
WSRF, OGSI 的 Web 服务 扩展 受到 了 择 击 。WSRF 是 5 个 不 同 规范 的 合集 。 当 然 ， 它 们 都 与 Ws- 
Resources 的 管理 有 关 。 表 5-5 描述 了 与 WSRF 有 关 的 接口 操作 。 
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表 5-5 WSRF 及 其 相关 规范 
规 范 措 述 
es 标准 化 资源 属性 的 定义 ， 其 与 WS 接口 的 关联 ， 定 
| 义 资源 属性 的 查询 和 更 新 能 力 的 消息 
WS- ResourceLifetime 提供 标准 的 机 制 来 管理 WS- resources 的 生命 周期 ， 
WSRF 规范 | 例如 ， 设 定 终止 时 间 
WS- ServiceGroup RIE Web 服务 和 WS- Resources 的 标准 表示 
WS- Basefault 提供 了 报告 故障 的 一 个 标准 方法 





对 于 通知 消息 交换 的 Web 服务 发 布 和 订阅 中 涉及 的 
基本 和 角色， 提供 了 一 个 标准 的 表示 方法 


标准 化 消息 中 介 (broker) 在 Web 服务 发 布 和 订阅 


WS- Base Notification 




















与 WSRF 有 WS- Notification WS- Brokered Notification 中 涉及 的 消息 交换 | 
关 的 规范 WS. Toot | 对 于 感 兴趣 的 订阅 条 目 即 “主题 *， 定 义 了 一 种 组 
o pies 织 和 分 类 的 机 制 
J 
WS- Addressing 寻 址 Web 服务 和 消息 的 传输 中 立 机 制 


一 般 的 Web 服务 通常 是 无 状态 的 。 这 意味 着 Web 服务 从 一 个 调用 到 另 一 个 调用 时 不 能 “ 记 
忆 ” 信 息 ， 或 保持 状态 。 然 而 ， 由 于 Web 服务 是 无 状态 的 ， 后 面 的 调用 并 不 知道 前 面 的 调用 做 
了 什么 。 网 格 应 用 因为 要 和 客户 端 或 其 他 Web 服务 交互 ， 通常 需 要 Web 服务 保持 状态 信息 。 
WSRF 的 目的 是 定义 一 个 通用 的 框架 ， 以 便 用 Web 服务 来 建 模 和 访问 持久 的 资源 ， 这 样 可 以 方 
便服 务 的 定义 和 实现 ， 以 及 多 个 服务 的 集成 和 管理 。 注 意 到 ， 如 果 状 态 包含 在 接收 到 的 消息 里 ， 
那么 “无 状态 的 ”服务 实际 上 也 可 以 记忆 状态 。 这 些 消息 可 能 含有 客户 端 cookie 中 保存 的 令 牌 
和 服务 访问 的 数据 库 或 高 速 缓存 。 同 样 ， 通过 用 户 登 录 数据 库 中 存储 的 永久 参考 信息 ， 访 问 无 状 
态 的 服务 的 用 户 可 以 为 会 话 建立 起 状态 。 

Web 服务 的 状态 信息 保存 在 一 个 称 为 资源 的 独立 实体 中 。 一 个 服务 可 以 有 一 个 以 上 的 资源 ， 
这 些 资源 通过 签发 不 同 的 键 值 来 区 分 。 资 源 可 以 是 在 内 存 中 ， 也 可 以 是 长 期 保存 ， 比 如 存储 在 文 
件 或 数据 库 这 样 的 二 级 存储 设备 中 。Web 服务 和 资源 的 配对 称 为 WS-Resource。 寻 址 一 个 特定 的 
WS- Resource 时 ， 比 较 好 的 方法 是 按照 WS- Addressing 规范 ， 使 用 合格 的 “端点 引用 ” (Endpoint 
Reference, EPR) 结构 。 资 源 保存 了 实际 的 数据 项 ， 被 称 为 “资源 属性 ”。 资 源 属性 通常 用 来 保 
存 服务 数据 值 ， 提 供 关 于 当前 服务 状态 的 信息 ， 或 是 关于 这 些 值 的 元 数据 ， 也 可 能 包含 管理 状态 
所 需要 的 信息 ， 比 如 资源 必须 销毁 的 时 间 。 目 前 ，Globus TAS 4. 0 提供 了 一 系列 基于 WSRF 的 
OGSA 功能 。 
5. 1.5 其 他 的 面向 服务 的 体系 结构 和 系统 

文献 [29] 是 一 篇 关于 服务 及 如 何 使 用 它们 的 综述 文章 。 这 里 我 们 给 出 两 个 例子 ,一 个 是 系 
统 ， 另 一 个 是 小 型 网 格 。 

” 例 5.3 美国 国防 部 网 络 中 心服 务 

美国 军 方 在 国防 部 软件 系统 中 引入 了 一 系列 所 谓 的 网 络 中 心服 务 ， 可 用 在 他 们 的 全 球 信息 
网 格 (Global Information Grid, GiG) 上 。 如 表 5-6 所 示 ， 它 们 给 出 了 和 OGSA 不 同 选 择 的 服务 。 
这 并 不 是 一 个 完全 不 同 的 体系 结构 ， 而 只 是 有 不 同 的 分 层 。 但 是 表 5-6 中 描述 的 消息 传递 可 以 视 
为 WS- RÆ OGSA 中 更 高 的 应 用 层 的 一 部 分 。( 关 于 INFOD 标准 ， 参 见 http;//www. ogf. org/ gf/ 
group_info/view. php? group = infod-wg)! 。 | 
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5-6 ”网络 中 心服 务 的 核心 全 球 信息 网 格 






































服务 或 特性 H F 
企业 服务 管理 生命 周期 管理 
安全 ; 信息 保障 (IA) 保密 性 ， 完 整 性 ， 可 用 性 ， 可 靠 性 
消息 传递 发 布 -订阅 重要 事项 
发 现 数据 和 服务 
调解 代理 〈agent) 、 中 介 (brokering) 、 变 换 、 聚 集 
协作 同步 和 异步 
用 户 支 持 最 优化 全 球 信息 网 格 用 户 体验 
存储 所 有 形式 数据 的 保留 、 组 织 和 布置 
应 用 f 管理 、 操 作 和 维护 
环境 控制 服务 策略 





例 5.4 CICC 中 的 服务 一 一 化 学 信息 网 格 

这 个 项 目的 目的 是 支持 可 能 用 于 药物 研发 的 小 分 子 实 验 获 得 数据 的 处 理 ， 包 括 聚 合 分 析 、 
数据 挖掘 和 定量 模拟 /第 一 原理 计算 。 小 分 子 数据 从 NIH PubChem 和 DIP 数据库 中 获得 ， 可 能 还 
有 从 服务 封包 的 数据 库 中 获得 的 大 分 子 数据 ,例如 Varuna, Protein Data Bank, PDBBind 和 
MODB。 在 后 面 几 年 的 实验 中 ，NIH 资助 的 高 吞吐 量 镜 像 中 心 有 可 能 淹没 PubChem 数据 库 ， 使 得 
数据 的 自动 化 组 织 和 分 析 变 得 十 分 必要 。 

有 趣 的 是 ， 数 据 分 析 应 用 可 以 和 用 于 期 刊 与 技术 文章 的 文本 分 析 应 用 结合 在 一 起 组 成 非常 
复杂 的 科学 环境 。 工 作 流 是 这 个 项 目的 一 个 关键 部 分 ， 因 为 它 可 以 编码 科学 用 例 。 许 多 CICC 服 
务 和 通用 方法 都 是 基于 剑桥 大 学 的 WWMM 计划 ( http://www- pmr. ch. cam. ac. uk/wiki/Main _ 
Page) ， 这 个 计划 是 Peter Rust 教授 领导 的 。 表 5-7 给 出 了 在 CICC 中 使 用 的 系统 和 应 用 服务 的 混 
合体 。 这 是 一 个 小 型 项 目 , 更 大 的 网 格 可 以 提供 更 多 的 服务 。 ,详细 内 容 参 见 网 站 http:// 














www. chembiogrid. org | | 
表 5-7 CICC 中 使 用 的 服务 和 标准 
服务 名 称 | # 述 
特定 应 用 : BCI, OpenEye, CICC 从 其 他 网 格 ( 包括 一 个 基于 Apache Ant 的 网 格 ) 继承 了 作业 管理 服务 ， 来 管 
Varuna, AutoGEFF 理 商 业 和 本 地 开发 的 高 性 能 计算 应 用 
检查 Condor 和 它 的 SOAP 接口 (BirdBath) 的 使 用 ， 作 为 Teracrid 上 Varuna 应 用 的 


Condor 和 BirdBath 超级 调度 器 


这 个 服务 封装 了 一 个 算法 来 估计 某 个 化 合 物 的 毒性 危害 。 在 工作 流 中 和 其 他 集群 化 
程序 组 合 在 一 起 时 非常 有 用 


基于 WWMM 组 的 05CAR3， 可 以 完成 期 刊 论文 和 其 他 文档 的 文本 分 析 ， 来 提取 
OSCAR3 服务 (XML 格式 ) 化 学 有 关 的 信息 。SMILES 分 配给 著名 的 化 合 物 。 需 要 和 传统 的 数据 库 
和 集群 化 算法 一 起 工作 


CICC 在 化 学 开发 包 〈Chemistry Development Kit, CDK) 的 基础 上 开发 了 许多 简单 的 








ToxTree 服务 




















CDK 服务 服务 。 这 些 服务 包括 相似 性 计算 、 分 子 式 描述 符 计算 、 指 纹 生 成 器 、 二 维 图 像 生成 器 
和 三 维 坐标 分 子 式 生成 器 

OpenBabel 服务 在 不 同 的 化 学 格式 之 间 (如 在 mChI 和 SMILES 之 间 ) 转换 

InChIGoogle 对 于 一 个 给 定 的 InChi (分 子 式 结构 的 字符 捉 规 范 ) ， 执 行 谷 歌 搜索 ， 返 回 一 个 匹配 
的 页 面 排名 列表 





关键 接口 /标准 /使 用 的 WSDL, SOAP (以 及 Axis 1.x), CML, InChI, SMILES, Taverna SCUFI, JSR - 168 
软件 JDBC Servlets, VOTables 


不 使 用 的 接口 /软件 WS-Security, JSDL, WSRF, BPEL, OGSA-DAI 
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5.2 面向 消息 的 中 间 件 


这 一 节 介绍 支持 分 布 式 计算 的 面向 消息 的 中 间 件 。 内 容 包 括 企业 总 线 、 发 布 -订阅 模型 、 排 
队 和 消息 传递 系统 。 
5.2.1 企业 总 线 

在 前 面 的 章节 中 ， 我 们 描述 了 服务 和 服务 体系 结构 。 根 据 定义 ， 这 些 服务 通过 各 种 不 同 的 格 
A (API), 、 有 线 协议 和 传输 机 制 与 消息 进行 交互 。 对 通信 机 制 进行 抽象 是 很 有 吸引 力 的 ， 这 样 
可 以 定义 服务 ， 使 得 通信 和 实现 的 具体 细节 分 离 。 例 如 ， 服 务 的 作者 不 需要 担心 为 了 避免 防火 墙 
的 困难 而 使 用 特定 的 端口 ， 也 不 需要 担心 在 远 距离 通信 中 为 了 达到 满意 延迟 需要 使 用 UDP 和 特 
殊 的 容错 机 制 。 更 进一步 ， 人们 可 能 希望 引信 一 个 封装 器 ， 使 得 服务 所 期 望 的 不 同 风格 (如 
SOAP、REST 或 Java RMI) 消息 彼此 之 间 能 够 进行 通信 。 术 语 “ 企 业 服 务 总 线 ” (Enterprise 
Service Bus，ESB)'”""i 指 的 是 总 线 支 持 许多 组 件 ， 通 常 采 用 不 同 的 风格 ， 能 够 方便 地 集成 在 一 
起 。 这 些 评论 产生 了 图 5-6 所 示 的 消息 黑 盒 抽象 。 


EPR <> CC 中介 2 “7 +> EMN 


i 
anD 





a) 在 服务 之 间 实 现 b) 作为 一 个 分 布 式 中 介 的 网 络 
图 5-6 在 服务 之 间或 使 用 中 介 网 络 的 两 种 消息 总 线 实现 


人 们 不 需要 在 源 和 目的 之 间 开 一 个 通道 ， 而 是 把 带 有 足够 信息 的 消息 注入 总 线 ， 人 允许 它 正确 
的 投递 。 这 个 注入 由 加 载 到 每 个 服务 的 代码 来 完成 ， 在 图 5-6a 中 被 称 为 客户 端 接口 。 在 这 个 图 中 消 
息 总 线 用 来 连接 服务 ， 但 是 可 以 和 任何 发 送 与 接收 消息 的 软件 或 硬件 实体 一 起 工作 。 一 个 简单 例子 
是 作为 客户 端的 台式 机 或 智能 手机 。 更 进一步 ， 这 些 总 线 可 以 在 一 个 应 用 内 部 或 以 分 布 式 方式 实 
现 。 在 后 者 的 情况 下 ， 通 常 以 一 系列 “中 介 ”(broker) 的 方式 来 实现 消息 总 线 ， 如 图 5-6b 所 示 。 

多 个 中 介 的 使 用 允许 总 线 扩展 到 多 个 客户 端 IRS) 和 大 规模 消息 流量 。 注 意 ， 图 5-6b 中 
的 中 介 “ 只 是 ”一 个 特殊 的 服务 器 /服务 ， 它 接收 消息 ， 执 行 必 要 的 转换 ， 然后 查找 路 由 并 发 出 
一 个 新 的 消息 。 对 于 消息 总 线 有 一 个 特殊 的 (简单 ) 例子 ， 图 5-6b 中 的 中 介 不 是 独立 的 服务 器 ， 
而 是 包含 在 客户 端 软 件 中 。 注 意 ， 这 样 的 总 线 不 仅 支 持 点 到 点 的 消息 传递 ， 也 支持 发 到 许多 接收 
客户 端 〈 服 务 ) 的 广播 或 选择 多 播 。 

通常 中 介 是 作为 队列 管理 器 实现 ， 这 个 领域 的 软件 在 其 描述 中 通常 有 消息 队列 (Message 
Queue，MQ)。 一 个 重要 的 早期 例子 是 IBM 公司 的 MQSeries!™ ， 现 在 在 市 场 上 称 为 
WebSphereMQ'Y! 。 在 第 8 章 介绍 云 平台 的 时 候 ， 我 们 会 发 现 Azure 和 亚马逊 都 提供 基本 的 排队 
软件 。 消 息 队 列 的 一 个 典型 应 用 是 在 并 行 计 算 的 “农场 ”模型 中 把 主人 和 工人 连接 起 来 , “ 主 
人 ”定义 了 各 工作 项 ， 然 后 放 到 队列 中 。 很 多 工人 可 以 访问 这 个 队列 ， 并 从 中 取出 下 一 个 可 用 
的 工作 项 。 这 就 提供 了 一 个 简单 的 动态 负载 均衡 并 行 运行 模型 。 如 果 需 要 ， 图 5-6b 中 的 多 个 中 
介 可 以 用 来 实现 可 扩展 性 。 
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5.2.2 发布- 订阅 模型 和 通知 

在 这 里 介绍 一 个 重要 的 概念 即 “发 布 - 订阅”"'*1I， 对 于 消息 总 线 ， 它 描述 了 把 源 和 目的 连 
接 起 来 的 一 个 特殊 寞 型。 在 这 里 消息 的 生产 者 (发 布 者 ) 以 某 种 方式 对 消息 贴 上 标签 一 一 通常 
的 做 法 是 与 一 个 ( 受 控 的 ) 词汇 表 中 的 一 个 或 多 个 主题 名 词 关联 。 然 后 消息 的 接收 者 (订阅 者 ) 
会 指定 他 们 希望 接收 到 相关 消息 的 主题 。 或 者 也 可 以 使 用 基于 内 容 的 发 布 系统 ， 内 容 可 以 用 某 
种 格式 (如 SQL) 来 进行 查询 。 

使 用 基于 主题 或 内 容 的 消息 选择 称 为 消息 过 滤 。 注 意 到 ， 在 每 种 情况 下 ， 我 们 会 在 发 布 者 和 
接收 者 之 间 找 到 一 个 多 对 多 的 关系 。 发 布 - 订阅 消息 传送 中 间 件 允许 直接 实现 通知 或 基于 事件 
的 编程 模型 。 例 如 ， 消 息 可 以 被 所 需要 的 通知 主题 (如 错误 或 完成 码 ) 标记 ， 并 含有 详细 说 明 
通知 的 内 容 "* 。 

5.2.3 队列 和 消息 传递 系统 

在 这 个 领域 中 ， 有 几 个 有 用 的 标准 。 最 有 名 的 是 Java 消息 服务 (Java Message Service, 
JMS)"™*! ， 它 在 发 布 /订阅 和 排队 系统 中 规定 了 一 系列 接口 概括 通信 语义 。 高 级 消息 排队 协议 
( Advanced Message Queuing Protocol, AMQP) Is 规定 了 通信 的 一 套 有 线 格 式 ; 和 API 不 同 ， 有 线 
格式 是 跨 平台 的 。 在 Web 服务 里 ，WS-Eventing 和 WS-Notification 是 互相 竞争 的 标准 ， 但 是 它们 
哪 一 个 也 没有 发 展 出 强力 的 后 续 。 在 表 5-8 中 ， 我 们 给 出 了 一 些 常用 的 消息 传递 和 排队 系统 的 比 
较 。 我 们 选择 了 两 个 云 计 算 系 统 : 亚马逊 简单 队列 和 Azure 队列 。 

我 们 还 列举 了 MuleMQL” ， 它 是 在 企业 服务 总 线 名 5 系统 Mule 下 面 的 消息 框架 ， 使 用 Java 
语言 开发 ， 在 2010 年 有 2 500 个 产品 部 署 。Mule 的 重点 在 于 简化 使 用 JMS、Web Services, 
SOAP, JDBC 和 传统 HTTP 开发 的 现 有 系统 的 集成 。Mule 内 支持 的 协议 包括 POP, IMAP, FTP, 
RMI, SOAP, SSL 和 SMTP, ActiveMQ’! 是 一 个 流行 的 Apache 开源 消息 中 介 ， 而 
WebSphereMQ'®! Æ IBM 提供 的 企业 消息 总 线 。 最 后 ， 我 们 列 出 了 因为 广泛 支持 各 种 传输 而 出 名 
的 开源 NaradaBrokering™ ， 并 且 被 成 功 地 用 来 支持 多 点 视频 会 议 及 其 他 协作 功能 的 软件 多 点 控 
制 单元 (Multipoint Control Unit, MCU), 

注意 到 ，4 个 非 云 系统 支持 JWS。 在 表 中 列 出 的 消息 系统 里 面 也 有 一 些 关键 的 特性 ， 但 是 因 
篇 幅 所 限 ， 本 节 并 未 详细 讨论 。 它 们 有 安全 方法 和 保障 、 消 息 传 递 机 制 等 。 时 间 去 耦合 传递 指 的 
是 交换 消息 时 生产 者 和 消费 者 并 不 需要 同时 在 线 。 容 错 也 是 一 个 重要 的 性 质 : 一 些 消息 传递 系 
统 可 以 备份 消息 并 提供 确定 保证 。 这 个 表 仅 作为 示例 使 用 ， 还 有 很 多 其 他 重要 的 消息 传递 系统 。 
例如 ，RabbitMQ'” 是 一 个 基于 AMQP 标准 的 令 人 印象 深刻 的 新 系统 。 

5.2.4 云 或 网 格 中间 件 应 用 
下 面 给 出 了 三 个 例子 ， 用 来 说 明 NaradaBrokering 中 间 件 服务 和 分 布 式 计算 的 应 用 。 第 一 个 例 
子 和 环境 保护 有 关 。 第 二 个 例子 用 于 互联 网 会 议 ， 第 三 个 用 于 地 震 科 学 应 用 。 

例 5.5 使 用 NaradaBrokering 的 环境 监测 和 互联 网 会 议 

Clemson 大 学 的 GOAT 项 目 是 沿海 环境 可 持续 性 集成 研究 计划 (Program of Integrated Study for 
Coastal Environmental Sustainability, PISCES) 的 一 部 分 ， 该 计划 站 在 解决 沿海 发 展 过 程 中 伴随 的 
环境 可 持续 性 问题 。 目 前 的 研究 包括 地 下 水 监测 、 地 表 水 质 和 水 量 的 监控 、 天 气 和 各 种 其 他 的 环 
境 测量 。 这 个 项 目 利用 NaradaBrokering 发 布 -订阅 消息 传递 系统 提供 了 一 个 灵活 可 靠 的 层 ， 把 来 
自 和 名 种 不 同 传 感 源 的 观测 数据 发 送 给 用 户 ， 而 用 户 也 有 着 名 种 不 同 的 数据 管理 和 处 理 需 求 。 
NaradaBrokering 可 以 显示 出 环境 传感器 。 
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亚马逊 简单 ， Narada 
Azure paj ActiveMQ WebSphere MQ Brokering 
否 ， 使 用 
AMQP 兼容 OpenWire 和 否 否 
Stomp 
IMS 兼容 S 否 是 是 
分 布 式 代 理 否 否 是 是 
磁盘 存储 使 
vag fis 消息 在 队列 7 天 内 可 以 7 用 1 个 文件 / 只 支持 传输 ARE, R 
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顺序 
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最 大 消息 8 KB 8 KB N/A 
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sia ee 通过 HMAC | ”是 于 JAAs | 访问 控制 ，| SSL， 端 到 | SSL, aia 
aws sanin | SHA256 签名 | 认证 的 授权 ”| 认证 ,通信 杂 | 端的 应 用 级 数 | 的 应 用 级 数据 
1 0 访问 队列 用 SSL 据 安 全 安全 和 ACL 
Web 服务 基于 SOAP REST, SOAP . 
支持 的 交互 REST 接口 REST REST 交互 WS- Eventing 
TCP, UDP, Mule ESB $ TCP, UDP, TO, # 发 
HITP’ HITPs, SSL, HTTP/S, | 持 TCP, UDP, Z% : SSL TCP, UDP, £ 
SSL HTTP’ HTTPS 42%, in-VM, RMI, SSL, SMTP HTTP/S , 播 ， SSL, HITP/ 
JXTA 和 FTP S, IPSec 
JMS 规范 允 | 。JMS 规范 多 | MARR 风 
可 以 访问 单 | 可 以 访问 单 | 许 SQL 选择 | 许 SQL 选择 | HE SQL 选择 | TM TN 
独 的 队列 独 的 队列 子 ， 也 可 以 访 | 子 ， 也 可 以 访 | 子 ， 也 可 以 访 | 对 ou p 
问 单独 的 队列 | 问 单独 的 队列 | 问 单独 的 队列 | xm oy 





商业 互联 网 会 议 软件 Anabas (www. anabas. com) 除了 支持 共享 白板 和 聊天 工具 外 ， 还 支持 
共享 应 用 。Anabas 的 内 容 传 播 和 消息 传递 需求 使 用 了 NaradaBrokering。 每 天 Anabas 支持 美国 和 
中 国 的 几 个 在 线 会 议 。 注 意 到 NaradaBrokering 支持 语音 - 视频 会 议 〈 使 用 UDP)， 以 及 其 他 使 用 


TCP 的 协作 应 用 。 发 布 给 NaradaBrokering 的 动态 屏幕 显示 可 以 在 协作 客户 端 上 显示 。 
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例 5.6 用 于 地 震 科 学 的 QuakeSim 项 目 

如 图 5-7 Pras, NASA 支持 的 QuakeSim 项 目 (http://quakesim. jpl nasa. gov/) 使 用 Narada- 
Brokering 来 管理 连接 分 布 式 服 务 的 工作 流 ， 同 时 也 支持 GPS 过 滤器 把 实时 GPS 数据 发 送 到 人 类 
和 应 用 消费 者 。 和 例 5.4 中 的 发 布 -订阅 系统 管理 传感器 网 络 类 似 ，GPS 应 用 也 是 一 个 重要 的 应 
用 。 事 实 上 ， 我 们 可 以 把 网 络 摄像 机 视 作 传感器 〈 因 为 它们 产生 了 实时 流 ) ， 这 样 例 5.5 也 可 以 
归 为 这 一 类 型 。 云 是 这 类 应 用 的 一 个 重要 实现 ， 因 为 可 以 按 需 增加 代理 来 支持 极端 事件 时 的 大 
量 动态 传感器 ， 包 括 从 手机 到 军事 或 民用 的 传感器 。NaradaBrokering 管理 GPS 传感器 的 显示 。 地 
图 显示 了 GPS 站 生成 的 时 间 序 列 。 E 
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5.3 门户 和 科学 网 关 


科学 网 关上 人 是 支持 交互 的 基于 Web 的 科学 、 教 育 和 协作 的 工具 。 网 关 提 供 以 用 户 为 中 心 
的 环境 ， 通 过 用 户 界面 与 远 端的 计算 资源 进行 交互 ， 典 型 的 (而 不 是 绝对 的 ) 用 户 界面 构建 方 
式 是 使 用 Web 技术 。 网 关 虽 然 表 面 上 看 起 来 和 网 络 站 点 比较 类 似 ， 它 们 的 表示 层 也 会 应 用 像 内 
容 管理 系统 一 样 的 工具 ,但 是 网 关 是 更 为 复杂 的 实体 。 科 学 网 关 也 称 为 门户 。 本 节 介绍 网 关 的 一 
般 体系 结构 ,综述 几 个 著名 的 例子 ， 然 后 讨论 构建 网 关 的 软件 实例 。 

我 们 把 网 关 软 件 分 为 “可 立即 使 用 的 ” (turnkey) 方案 ， 典 型 代表 是 HUBzero; 以 及 “工具 
#8” (toolbox) 方案 ， 典 型 代表 是 开放 网 关 计 算 环 境 ( Open Gateway Computing Environment, 
OGCE) 项 目 。 可 立即 使 用 的 网 关 软 件 提供 建造 网 关 包 括 主机 的 端 到 端 解 决 方案 。 工 具 箱 网 关 软 
件 提 供 解 决 特定 问题 的 工具 ， 可 以 集成 到 定制 的 软件 栈 里 。SimpleGrid WA 是 另 一 个 工具 箱 的 

， 例子 。 下 面 我 们 将 详细 介绍 HUBzero 和 OGCE 软件 。 
”图 5-8 给 出 了 一 个 构成 网 关 所 需要 组 件 的 分 组 高 层 视图 。 底 层 是 资源 层 ， 可 以 包括 校园 计算 
集群 和 存储 系统 ， 以 及 像 TeraGrid'*! 和 开放 科学 网 格 "”! 这 样 的 国家 级 网 格 资源 ， 也 包括 计算 云 | 
资源 。 第 二 层 包 括 和 这 些 资源 交互 的 中 间 件 。 常 见 的 中 间 件 例子 包括 Globus") (提供 作业 执行 
和 远程 文件 管理 ) Condor“ (提供 作业 调度 ) 和 iRods'%! (提供 数据 和 元 数据 迁移 与 管理 ) 。 
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通常 ， 人 并 提供 大 量 的 命令 行 工具 。 





web/Gadget | Web/Gadget Web 启 用 桌面 应 用 网 关 抽象 接口 





资源 中 间 件 


图 5-8 ”科学 应 用 的 网 关 组 件 软件 栈 


第 二 层 软件 和 服务 运行 在 第 一 层 的 资源 之 上 。 后 面 的 两 层 并 没有 和 这 些 资源 绑 定 ， 而 是 可 
以 运行 在 独立 的 主机 上 。 第 三 层 是 网 关 软 件 层 ， 包 含 通过 第 二 层 的 接口 管理 第 一 层 资源 上 科学 
应 用 和 数据 运行 的 服务 组 件 。 数 据 和 科学 应 用 的 运行 管理 可 以 分 解 为 几 个 组 件 : 初始 调用 、 监 
控 、 容 错 和 任务 夺 合 为 工作 流 。 安 全 考虑 “"” (如 认证 和 授权 ) 贯穿 了 所 有 层 ， 但 是 因为 用 户 
的 身份 是 在 第 三 层 确定 ， 所 以 我 们 把 这 个 组 件 放 在 这 里 。 

我 们 也 把 用 户 和 组 管理 (包括 社会 网 络 ) 以 及 第 三 方 信息 服务 '“ 放 在 这 一 层 。 最 后 ， 顶 层 
(第 四 层 ) 是 用 户 表示 层 。 表 示 层 可 以 使 用 各 种 不 同 的 工具 建造 ， 包 括 内 容 管 理 系统 、 开 放 社 会 
构件 和 下 面 将 详细 介绍 的 桌面 应 用 。 图 5-8 已 经 足够 灵活 来 描述 大 多 数 网 关 。 下 面 我 们 通过 两 个 
科学 网 关 的 例子 (GridChem 和 UltraScan) 来 具体 描述 。 这 两 个 网 关 都 已 经 应 用 在 重要 的 科学 研 
究 中 。 

5. 3.1 科学 网 关 样 例 

下 面 给 出 三 个 例子 来 解释 使 用 计算 网 格 或 互联 网 云 的 科学 应 用 中 的 网 关 概 念 

例 5.7 计算 化 学 网 格 (Computational Chemistry Grid, CCG) 

CCG 也 称 为 GridChem (www. gridchem. org)", Æ% TeraGrid 里 最 为 常用 的 科学 网 关 之 一 。 
GridChem 提供 了 一 个 网 格 使 能 的 桌面 接口 ， 可 以 使 用 户 在 TeraGrid 网 格 上 建立 、 发 起 和 管理 计 
算 化 学 模拟 。GridChem 支持 的 应 用 包括 Gaussian, CHARMM 和 GAMESS, 

虽然 支持 应 用 (输入 校 验 和 可 视 化 工具 ) 可 以 运行 在 用 户 的 台式 机 上 ， 但 是 这 些 应 用 都 是 
计算 上 要 求 很 高 的 并 行程 序 ， 需 要 在 超级 计算 机 上 和 运行 。GridChem 在 网 关 的 概念 上 起 到 先锋 作 
用 ， 比 如 “社区 用 户 ”， 人 允许 用 户 通过 共享 的 分 配 来 访问 资源 ， 这 个 概念 在 现在 的 许多 科学 网 关 
上 都 很 普遍 。GridChem 产生 了 很 多 重要 的 科学 成 就 ， 很 多 科技 文献 都 承认 并 强调 GridChem 为 计 
算 化 学 提供 的 计算 机 基础 设施 效能 1。 | 

$5.8 UltraScan 生物 物理 网 关 

UltraScan! 发展 了 一 个 TeraGrid 科学 网 关 ， 用 来 对 分 析 超 高 速 离心 机 (Analytical 
UltraCentrifuge, AUC) 产生 的 流体 动力 学 数据 进行 高 精度 的 分 析 和 建 模 。 这 个 应 用 被 生物 化 学 
家 、 生 物 物理 学 家 和 材料 科学 家 用 来 进行 生物 高 分 子 和 合成 高 分 子 材料 的 基于 解 的 分 析 ， 以 将 
实验 数据 和 流体 方程 的 有 限 元 解 匹配 起 来 。 在 全 世界 有 超过 700 位 生物 化 学 家 、 生 物 物 理学 家 、 
生物 学 家 和 材料 科学 家 依靠 UltraScan 软件 来 分 析 他 们 的 实验 数据 。 这 个 软件 可 以 帮助 人 们 理解 
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很 多 疾病 过 程 ， 包 括 瘤 证 、 神 经 组 织 退 化 病 、 艾 滋 病 、 糖 尿 病 、 慢 性 舞蹈 病 和 衰老 的 研究 。 据 保 
守 估 计 ，2009 年 以 来 UltraScan 已 经 促成 了 超过 250 篇 同行 审 稿 的 论文 ， 其 中 有 23 篇 是 非常 著 
名 的 [1 。 

UltraScan 通过 它 的 科学 网 关 使 它 的 核心 实验 分 析 软 件 可 以 让 科学 用 户 在 线 使 用 。 这 个 分 析 
软件 在 计算 上 要 求 很 高 ， 必 须 运 行 在 集群 和 超级 计算 机 上 。UltraScan 作业 管理 服务 (第 三 层 ) 
将 复杂 性 隐藏 起 来 ， 并 且 为 使 用 门户 的 实验 科学 家 提供 容错 功能 。 虽 然 UltraScan 的 一 些 计算 能 
力 使 用 了 Teracrid， 但 是 它 还 需要 扩展 到 多 个 资源 提供 商 : 它 也 需要 使 用 大 学 集群 ， 并 想 扩展 它 
的 资源 到 包括 德国 和 澳大利亚 的 国际 网 格 。UltraScan 的 成 功 和 未 来 三 年 发 展 的 关键 是 提供 这 样 
一 种 能 力 : 可 以 管理 跨越 多 个 计算 机 基础 设施 资源 的 作业 ， 而 不 是 一 个 单独 可 管理 网 格 的 集成 
部 分 。 

像 UltraScan 这 样 的 网 关 给 出 了 一 个 示范 ， 领 域 专家 完成 计算 资源 的 代码 最 优化 和 有 效 使 用 ， 
然后 供 数 百 个 终端 用 户 共享 。 网 关 降 低 了 在 高 端 资源 上 分 析 数 据 的 入 口 门 权 。 作 为 一 个 例子 ， 
UltraScan 网 关 提 供 了 在 数据 分 析 中 所 需要 的 求解 大 规模 非 负 最 小 平方 问题 的 最 优 解 ，”1。 解 决 
这 些 问 题 需 要 大 量 的 计算 资源 。 这 个 过 程 提高 了 计算 资源 的 利用 率 ， 旨 在 解决 对 分 析 超 高 速 离 
心机 实验 数据 进行 建 模 时 所 涉及 的 逆 问 题 。 求 解 大 规模 非 负 受 限 最 小 平方 系统 是 物理 学 中 经 常 
遇 到 的 一 个 问题 ， 它 用 来 估计 和 实验 数据 最 匹配 的 模型 参数 。 

AUC 是 生物 物理 学 中 用 来 刻 划 高 分 子 的 一 个 重要 的 流体 动力 实验 技术 ， 它 还 能 决定 诸如 分 
子 重 量 和 形状 这 样 的 参数 。 最 近 ， 更 新 的 装备 有 多 波长 (Multi- WaveLength，MWEL) 探测 器 的 
AUC 设备 把 数据 量 提升 了 三 个 数量 级 。 分 析 MWL 数据 需要 大 量 的 计算 资源 。 通 过 提供 在 超级 计 
算 资源 上 运行 它们 的 过 程 和 能 力 ，UltraScan 网 关 对 于 终端 用 户 填 补 了 这 些 需求 。 E 

例 5.9 nanoHUB. org 网 关 

nanoHUB. og 网 关 是 由 国家 科学 基金 会 (NSF) 资助 的 计算 纳米 技术 网 络 (Network for 
Computational Nanotechnology , NCN) 来 运行 的 ， 用 以 支持 美国 和 世界 范围 内 国家 纳米 技术 的 发 
起 以 及 加 速 从 纳米 科学 到 纳米 技术 的 转化 。 自 从 2002 年 开始 ， 使 用 nanoHUB. org 的 社区 从 主要 
在 普度 大 学 的 1 000 位 用 户 增长 到 每 年 来 自 世 界 172 个 国家 的 超过 290 000 位 访问 者 。 从 2009 年 
8 月 到 2010 年 7 月， 大约 有 8 600 位 用 户 使 用 了 170 多 项 纳米 仿真 工具 ， 和 运行 了 340 000 次 仿真 。 

今天 nanoHUB. org 主机 拥有 2 000 多 项 内 容 ， 例 如 ，170 个 在 线 仿真 工具 和 各 43 门 完 整 的 课 
程 ， 还 有 教程 、 研 讨 班 和 教学 材料 。 所 有 nanoHUB. og 提供 的 服务 对 用 户 都 是 免费 的 。 所 有 
nanoHUB. org 上 面 的 资源 都 是 以 学 术 的 方式 呈现 ， 带 有 标题 、 作 者 、 摘 要 和 归档 引用 信息 。 到 目 
前 为 止 ， 在 学 术 文献 中 已 经 超过 560 次 引用 nanoHUB. og 及 其 工具 、 研 讨 课 和 其 他 发 布 的 资源 。 
同时 到 目前 为 止 在 131 家 高 等 教育 机 构 有 379 门 课程 使 用 了 nanoHUB. org 的 资源 。 研 究 期 刊 的 
引用 和 教学 文档 的 使 用 证 明 nanoHUB. org 的 资源 对 于 研究 和 教育 都 有 很 大 的 帮助 。 | 
5.3.2 科学 协作 的 HUBzero 平台 

HUBzero 是 一 个 开源 的 软件 平台 ， 用 来 创建 科学 协作 、 研 究 和 教育 的 网 站 或 “中 心 ”s。 它 
有 一 个 特殊 的 组 合 功能 ， 吸 引 了 许多 人 来 从 事 研 究 和 教育 活动 。 和 YouTube. com 一 样 ，HUBzero 
人 允许 人 们 上 传 内 容 并 “发 布 ” 给 大 众 ， 但 是 它 不 仅仅 限制 于 视频 短片 ， 它 可 以 处 理 许 多 不 同类 
型 的 科学 内 容 。 在 这 个 方面 ，HUBzero 类 似 于 MIT 的 OpenCourseWare! ， 但 是 它 又 集成 了 具有 
协作 功能 的 内 容 。 和 谷歌 小 组 一 样 ，HUBzero 允许 人 们 在 一 个 私人 的 空间 一 起 工作 ， 在 这 里 他 们 
可 以 共享 文档 和 互相 发 信息 。 和 亚马逊 上 的 Askville 一 样 ，HUBzero 允许 人 们 就 科学 概念 而 不 是 


© HUBzero 是 普度 大 学 的 一 个 商标 。 
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产品 提问 或 发 表 回 应 。 
也 许 HUBzero 的 最 有 趣 的 特性 是 它 处 理 模 拟 和 建 模 程序 或 “工具 ”的 方法 。 像 
SourceForge. net 一 样 ，HUBzero 允许 研究 者 在 他 们 模拟 程序 的 源 代码 上 协同 工作 ， 并 且 和 社区 共 
享 这 些 程序 。 但 是 HUBzero 则 不 仅 共 享用 来 下 载 的 源 代码 包 ， 它 还 提供 实时 的 已 发 布 程序 ， 可 以 
立即 使 用 并 且 完 全 在 一 个 普通 的 网 络 浏览 器 里 。 模 拟 引 擎 从 头 到 尾 在 那个 中 心 选 择 的 计算 资源 
上 运行 。 
计算 要 求 高 的 运行 可 以 发 到 远 端 资源 上 运行 ， 这 对 用 户 是 完全 透明 的 。 通 过 友好 的 图 形 用 
户 界面 (Graphical User Interface, GUI) 来 驱动 工具 ， 可 以 使 模拟 过 程 的 端 到 端 操 作 包 括 建 立 、 
执行 和 数据 的 可 视 化 。 许 多 GUI 是 用 HUBzero 的 Rappture 工具 包 来 实现 ,它们 可 以 让 研究 者 从 多 
次 运行 中 比较 模拟 结果 ， 并 提出 “要 是 …… 又 怎样 ”的 问题 。 实 际 上 ， 每 一 个 HUBzero 支持 的 
中 心 都 是 一 个 科学 社区 的 “应 用 商店 ”， 它 们 和 资源 云 相连 来 让 应 用 执行 和 完成 ， 包 括 训练 材料 
库 和 支持 应 用 使 用 的 其 他 协作 特性 。 
HUBzero 是 普度 大 学 和 美国 国家 科学 基金 会 资助 的 NCN 共同 创建 的 ,来 激励 其 在 
nanoHUB. org fy Pua 。 今 天 ， 同 样 的 HUBzero 软件 支持 了 30 个 类 似 的 网 关 ， 涵盖 了 工程 和 
科学 的 各 个 学 科 。 这 里 有 三 个 例子 : 
e GlobalHUB. org (29 000 个 活动 用 户 ，2007 年 12 月 开始 上 线 ) .利用 HUBzero 的 群 组 功能 
来 支持 全 球 规模 的 工程 教育 。 学 生 分 组 来 一 起 研究 各 种 不 同 的 工程 项 目 。 

e cceHUB. org (2 400 个 活动 用 户 ，2008 年 6 月 开始 上 线 ) 从 “工程 ”的 角度 来 研究 癌症 
的 治疗 ， 通 过 收集 病人 血液 样本 数据 库 ， 提 取 和 蛋白 质 组 学 / 代谢 组 学 数据 ， 控 掘 数据 ， 
来 找到 生物 标记 模式 ， 为 癌症 治疗 功效 进行 建 模 。 297 

e NEES. org (15 000 个 活动 用 户 ，2010 年 8 月 开始 上 线 ) NSF 地 震 工程 仿真 网 络 之 家 ， 

对 在 实验 室 模 拟 地 震 条 件 的 14 个 机 构 实 验 数 据 进行 分 类 。 这 个 站 点 也 拥有 对 数据 进行 可 
视 化 和 分 析 的 建 模 工具 。 

5.3.2.1 HUBzero 体系 结构 

表面 上 ， 每 一 个 HUBzero 支持 的 网 关 都 是 一 个 网 站 ， 这 个 网 站 使 用 广泛 应 用 的 开源 
“LAMP” WRAKI (BP Linux 操作 系统 、Apache Web 服务 器 、MySQL 数据 库 和 PHP 脚本 语言 
来 建设 。 如 图 5-9 所 示 ，HUBzero 增加 了 科学 内 容 管理 系统 ， 即 开源 的 Rappture 工具 集 来 为 仿真 
程序 创建 CUI， 还 有 一 个 特有 的 中 间 件 来 托管 仿真 工具 和 科学 数据 。 


A eo LAMP Web 服 务 器 数据 库 


HUBzero 内 容 管理 系统 < a 


HUBzero 中 间 件 
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图 5-9 HUBzero 体系 结构 及 其 主要 功能 组 件 











208 第 二 部 分 云 平 台 、 面 向 服务 的 体系 结构 和 云 编程 








298 





每 一 个 工具 描述 页 面包 括 一 个 “启动 ”按钮 。 当 用 户 按 下 按钮 ， 中 间 件 就 在 工具 运行 主机 
上 分 配 一 个 会 话 容器 ， 然 后 启动 容器 内 的 X11 窗口 系统 ， 启 动工 具 ， 将 会 话 通 过 虚拟 网 络 计算 
( Virtual Network Computing ，VNC) !® 连接 回 用 户 的 Web 浏览 器 。 对 于 用 户 来 说 ， 看 起 来 似乎 工 
具 在 他 们 的 浏览 器 中 运行 ， 但 是 它 实 际 上 在 中 心 环境 里 运行 ， 那 里 它 可 以 访问 本 地 的 计算 和 可 
视 化 集群 ， 也 可 以 访问 远程 的 计算 资源 ， 比 如 TeraGrid、 开 放 科 学 网 格 和 普度 的 DiaGridtesl 。 离 
线 或 在 线 协作 的 用 户 之 间 可 以 共享 会 话 ， 而 且 会 话 是 持久 的 ， 这 样 用 户 可 以 关闭 浏览 器 窗口 ， 并 
且 在 以 后 重新 恢复 同一 会 话 。 

与 其 他 的 门户 和 计算 机 环境 不 一 样 ， 中 心里 的 工具 是 交互 式 和 有 吸引 力 的 。 用 户 可 以 在 图 
形 上 缩放 、 旋 转 一 个 分 子 、 在 三 维 体 上 探测 等 值 面 ”! 一 一 所 有 的 这 一 切 都 是 交互 式 的 ， 而 且 不 
需要 等 待 网 页 刷新 。 用 户 能 够 可 视 化 结果 而 不 需要 在 超级 计算 机 上 预约 时 间或 等 待 批 处 理 作 业 
参与 。 每 一 个 中 心 可 以 托管 社区 成 员 上 传 的 无 数 个 工具 ， 而 且 这 些 工具 部 署 的 时 候 不 需要 为 网 
络 重新 编写 代码 。 这 些 工具 的 计算 需求 各 不 相同 ， 有 的 在 单 核 上 跑 几 秒 钟 ， 有 的 则 在 多 核 甚 至 是 





AEA RK EPL At LR! 。 

每 一 个 会 话 都 运行 在 用 OpenVZ") 实现 的 受 限 虚拟 环境 ， 这 个 环境 控制 了 对 文件 系统 、 网 络 
和 其 他 系统 资源 的 访问 。 用 户 可 以 看 到 自己 的 文件 和 进程 ， 但 是 不 能 在 系统 中 看 到 其 他 人 的 ， 不 
能 发 起 对 其 他 主机 的 攻击 ， 也 不 能 超过 他 们 的 文件 配额 。 如 果 一 个 工具 已 经 有 在 Linux/X11 FR 
运行 的 图 形 用 户 界面 ， 那 么 它们 可 以 在 几 个 小 时 内 部 署 得 和 以 前 一 样 。 如 果 没 有 ， 工 具 开 发 者 可 
以 使 用 HUBzero 的 Rappture 工具 集 (http://rappture. org) 很 容易 地 创建 一 个 图 形 用 户 界 面 。 开 
发 者 首先 定义 工具 的 输入 和 输出 为 XML 格式 书写 的 数据 对 象 层次 图 。 数 据 对 象 包括 简单 的 元 素 ， 
比如 整数 、 布 尔 值 、 带 有 单位 的 数值 和 互 斥 选项 集合 ， 也 可 以 是 复杂 得 多 的 对 象 ， 比 如 物理 结 
构 、 有 限 元 网 格 和 分 子 。 

Rappture 读 人 工具 的 XML 描述 ， 自 动 地 为 这 个 工具 生成 一 个 标准 图 形 用 户 界 面 。 图 形 用 户 
界面 会 提示 输入 数值 ， 运 行 仿真 作业 ， 调 用 结果 进行 显示 。 底 层 的 仿真 代码 使 用 API 来 获得 输入 
的 数据 和 保存 输出 结果 。Rappture 包含 一 个 可 供 C/C ++, Fortran, MATLAB, Java, Python, 
Perl, Ruby 和 Tcl/Tk 使 用 的 库 ， 所 以 底层 的 仿真 器 并 不 受 限 于 某 种 特定 的 语言 ， 而 是 可 以 根据 
开发 者 选择 的 语言 来 编写 。 例 如 ， 图 5-9 所 示 的 工具 就 是 MATLAB 仿真 碳 纳米 管 程序 的 Rappture 
图 形 用 户 界面 。 

5.3.2.2 操作 特性 

能 够 即时 访问 大 量 的 仿真 工具 开启 了 新 的 功能 ， 但 是 也 引入 了 一 系列 新 的 问题 。 用 户 想 了 
解 更 多 关于 工具 各 它们 编码 背后 的 物理 。 他 们 可 能 发 现 一 个 缺陷 想 报 告 ， 也 可 能 会 对 结果 是 否 
正确 发 出 疑问 。 他 们 想 就 平台 里 的 新 模型 和 新 特性 交换 看 法 。HUBzero 现在 已 经 不 只 是 包含 一 个 
简单 的 仓库 ， 而 是 包含 很 多 特性 来 支持 这 类 协作 。 

5.3.2.3 评级 和 引用 

中 心 并 不 在 每 个 资源 发 布 之 前 判断 它 的 质量 ， 而 是 发 布 资源 并 帮助 社区 来 评估 质量 。 注 册 
的 用 户 可 以 对 每 个 资源 给 出 5 星 的 评级 和 发 表 评 论 。 用 户 也 可 以 在 学 术 文 章 中 给 出 对 每 一 个 资源 
的 引用 。 每 一 个 资源 的 评级 和 引用 与 网 页 统计 (测量 受 欢 迎 程度 ) 结合 起 来 ， 生 成 一 个 0 到 10 
之 间 的 数字 来 表示 资源 的 质量 ， 称 为 排名 。 

5.3.2.4 内 容 标 记 

和 有 照片 共享 网 站 里 的 照片 标记 非常 类 似 ， 中 心里 的 项 目 也 按照 一 系列 标签 来 分 类 。 这 样 我 
们 很 容易 浏览 资源 分 类 ， 或 者 找到 两 个 或 更 多 类 别 相 交 的 资源 。 

5.3.2.5 用 户 支持 区 域 

用 户 可 能 不 时 地 会 出 现 登 录 问 题 、 关 于 工具 的 问题 或 者 需要 其 他 的 帮助 。HUBzero 软件 配备 
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有 一 个 内 置 的 用 户 支持 区 域 。 用 户 可 以 点 击 任何 一 个 页 面 顶部 附近 的 帮助 或 支持 链接 ， 然 后 填 


写 一 个 表格 申请 支持 票据 。 票 据 可 以 由 中 心 的 管理 人 员 处 理 ， 或 者 转发 给 支持 各 种 仿真 工具 的 
研究 者 。 有 些 问 题 会 超出 中 心 管 理 人 员 的 理解 ， 甚 至 超出 单个 研究 者 的 知识 之 外 。 

HUBzero 有 一 个 模仿 亚马逊 上 Askville 的 提问 - 回答 论坛 ， 可 以 让 社区 里 的 所 有 用 户 参 与 。 
每 个 注册 的 用 户 可 以 提出 问题 ， 其 他 的 用 户 给 出 答案 。 在 某 个 时 间 ， 提 出 问题 的 人 可 以 选择 最 好 
的 答案 作为 “最 终 的 ”答案 ,参与 者 由 于 他 们 的 付出 会 获得 点 数 作 为 回报 。 点 数 可 以 作为 炫 焰 
的 权利 ， 也 可 以 在 中 心 商店 里 作为 货币 购买 恤衫 或 是 其 他 商品 。 过 去 的 问题 /回答 列表 构成 了 
一 个 知识 库 ， 当 有 类 似 的 问题 时 可 以 很 快 地 从 中 找到 答案 。 

其 他 的 问题 在 软件 故障 和 物理 问题 之 外 ， 但 是 确实 需要 工具 改进 和 新 特性 。 这 样 的 请 求 记 
录 在 每 个 工具 的 “愿望 列表 ”上 ， 同 时 也 记录 在 整个 中 心 的 愿望 列表 上 。HUBzero 软件 管理 所 有 
的 票据 、 问 题 和 愿望 。 为 了 解决 社区 支持 问题 ， 每 个 管理 员 、 软 件 开 发 人 员 和 社区 成 员 都 有 权 使 
用 这 些 设施 。 

5.3.2.6 维基 和 博客 

每 一 个 中 心 都 支持 “主题 ”页 面 的 创建 ， 它 们 是 有 一 个 特定 作者 列表 的 维基 页 面 。 其 他 用 
户 可 以 就 主题 页 面 发 表 评 论 或 者 建议 改变 ， 原作 者 选择 是 否 采 纳 。 用 户 可 以 被 添加 为 页 面 的 合 
作者 ， 这 样 他 们 不 需要 征 得 同意 就 可 以 进一步 修改 。 页 面 的 所 有 权 也 可 以 送 给 整个 社区 ， 和 维基 
类 似 ， 每 个 人 都 可 以 不 需要 征 得 同意 就 作出 修改 。 

5.3.2.7 使 用 度量 

每 一 个 中 心 都 会 报告 详细 的 度量 ,说 明 它 的 资源 是 如 何 使 用 的 ， 其 中 一 些 度量 包括 给 定时 
间 有 段 的 用 户 总 数 、 网 站 的 点 击 数 、 发 起 的 仿真 作业 数量 和 使 用 的 CPU 时 数 。 度 量 一 直 报 告 到 每 
一 个 单独 的 资源 ， 这 样 每 个 人 都 可 以 看 到 某 个 工具 有 和 多少 用 户 访问 ， 某 个 研讨 班 被 看 了 多 少 次 。 
人 们 汇总 了 使 用 数量 来 给 出 感 兴趣 类 别 的 使 用 概况 ， 比 如 某 个 用 户 发 布 的 所 有 资源 被 访问 的 用 
户 总 数 。 这 些 使 用 度量 刺激 了 人 们 来 使 用 HUBzero 支持 的 科学 网 关 。 

5.3.2.8 未 来 方向 

HUBzero 的 发 展 很 大 程度 上 是 被 使 用 它 的 项 目 来 推动 的 。 虽 然 HUBzero 开始 的 时 候 主 要 强调 
仿真 和 建 模 ， 但 是 它 正在 发 展 到 包括 数据 管理 功能 。 像 瘤 症 护理 工程 cceHUB. org 和 地 震 工程 
NEES. org 这 样 的 项 目 都 在 为 用 户 创 建 机 制 来 定义 、 上 传 、 发 布 、 注 释 和 分 析 各 种 不 同类 型 的 结 
构 数 据 集 。 像 GlobalHUB. org 这 样 的 项 目 正 在 改进 群 组 空间 ， 在 这 里 用 户 能 够 就 私有 内 容 交换 文 
件 及 一 起 工作 。 

随 着 中 心 收 集 到 更 多 工具 ， 研 究 者 发 现在 工作 流 中 需要 把 工具 连接 起 来 以 解决 更 大 的 问题 。 
例如 ，pharmaHUB. org 里 面 一 个 工具 产生 的 药丸 溶解 轮廓 可 以 送 到 病人 的 消化 轨迹 模型 ， 这 些 结 
果 可 以 用 来 计算 病人 的 血液 中 有 效 成 分 随时 间 变 化 的 含量 。 为 了 执行 总 体 敏 感度 分 析 、 设 计 目 
标 最 优化 ， 或 是 输出 中 不 确定 性 的 量化 ， 这 些 工具 链 可 能 需要 运行 上 百 次 。 为 了 利用 网 格 计 算 资 
源 ， 最 终 帮 助 研 究 者 解决 问题 ， 中 心 不 仅 仅 要 对 工具 进行 分 类 ， 还 要 能 够 把 它们 一 个 个 地 连接 
起 来 。 

5. 3.3 开放 网 关 计 算 环境 (OGCE) 

开放 网 关 计 算 环 境 (Open Gateway Computing Environments , OGCE) m BTU Ht T ILAH 
同 网 关 "* 中 使 用 的 开源 网 关 软 件 。OGCE 包括 一 些 组 件 ， 它 们 可 以 单独 使 用 ， 也 可 以 集成 在 一 
起 ， 为 远程 科学 应 用 管理 提供 更 为 复杂 的 解决 方案 。0GCE 包括 以 下 的 组 件 工具 : 

。 OGCE Gadget 容器 ” : 一 个 用 来 集成 用 户 接口 组 件 的 谷歌 工具 。 

。 XRegistry: 一 个 用 来 存储 其 他 在 线 服务 和 工作 流 信息 的 注册 表 服 务 。 
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e XBayai” ; 一 个 工作 流 编排 器 和 演出 引擎 。 
e GFAC' : 一 个 工厂 服务 ， 它 可 以 用 来 封装 命令 行 驱动 的 科学 应 用 ， 把 它们 组 成 网 络 可 
以 访问 的 鲁 棒 服 务 。 

。 OGCE 消息 服务 : 支持 在 多 个 协作 服务 之 间 的 事件 和 通知 。 

OGCE 的 策略 基于 工具 集 模型 。 这 个 策略 是 由 TeraGrid 科学 网 关 计 划 及 其 多 种 多 样 的 网 关 所 
决定 的 。 很 显然 有 很 多 框架 、 编 程 语言 和 工具 可 以 用 来 建设 基于 Web 的 网 关 并 提供 高 级 功能 。 
根据 我 们 的 经 验 ， 很 多 网 关 都 受益 于 低 耦 合 的 工具 ， 它 们 可 以 集合 在 一 起 ， 也 可 以 分 开工 作 。 在 
工具 集 模型 里 ， 网 关 可 以 选取 一 个 或 多 个 特定 的 工具 ， 把 它们 集成 到 网 关 已 有 的 基础 设施 里 。 例 
如 ，UltraScan 这 样 的 网 关 需 要 可 靠 的 作业 提交 工具 来 隐藏 不 同 Globus GRAM 版 本 之 间 的 差异 ; 
GFAC 可 以 作为 候选 的 工具 。GridChem 和 ParamChem 想 扩 展 它 们 的 作业 提交 功能 到 包括 科学 工作 
流 ; 可 以 使 用 XBaya 和 它 的 支持 工具 。 

OGCE 工具 重点 在 于 科学 应 用 和 工作 流 管理 ， 它 把 一 些 问题 比如 数据 和 元 数据 管理 交 给 了 其 
他 项 目 。 科 学 应 用 所 显示 出 来 的 特性 有 着 显著 的 区 别 ， 所 以 在 用 户 接 口 和 通用 网 格 中 间 件 之 间 
需要 中 间 的 、 与 应 用 相关 的 服务 。 网 关 软 件 层 (图 5-8 所 示 的 第 3 层 ) 必须 适应 一 个 特定 域 的 复 
杂 性 ， 并 提供 软件 基础 设施 来 填补 用 户 接 口 层 和 网 格 中 间 件 之 间 的 差距 。 

所 以 ， 许 多 科学 网 关 使 用 科学 Web 服务 加 上 工作 流 系 统 来 建造 网 关 软 件 。 应 用 相关 的 Web 
服务 可 以 把 通用 网 格 中 间 件 和 网 关 的 特定 需求 连接 起 来 。 工 作 流 更 进一步 把 多 个 服务 和 步骤 组 
成 科学 用 例 。 工 作 流 可 以 隐 式 地 存在 网 关 设 计 中 ， 也 可 以 直接 地 显示 给 用 户 。 注 册 表 是 用 来 查找 
其 他 服务 和 工作 流 的 服务 。 最 后 ， 不 同 的 分 布 式 组 件 使 用 消息 传递 系统 进行 通信 。 例 如 ， 用 户 需 
要 一 个 机 制 来 监控 长 期 运行 的 工作 流 。 

5.3.3.1 工作 流 

OGCE 科学 工作 流 系统 ”提供 了 一 个 编程 模型 允许 科学 家 使 用 GFAC 服务 开发 的 应 用 
Web 服务 对 实验 进行 编程 ， 它 们 把 底层 中 间 件 的 复杂 性 抽象 化 了 。 工 作 流 系统 使 得 科学 家 能 够 
编写 可 以 保存 、 重 放 和 与 他 人 共享 的 实验 。 和 接口 一 起 绑 定 的 工作 流 套 件 可 以 合成 、 执 行 和 监控 
工作 流 。 它 的 主要 特征 包括 支持 长 时 间 运 行 的 应 用 和 转向 /动态 用 户 交互 。 

OGCE 软件 栈 被 设计 成 可 以 灵活 地 和 各 种 组 件 耦 合 ， 来 利用 端 到 端的 多 尺度 网 关 基 础 设施 。 
单个 的 OGCE 工具 可 以 集成 到 网 关 部 署 中 ,同样 ， 其 他 基于 规范 的 标准 工具 可 以 在 OGCE 的 软件 
栈 里 面 交换 。 作 为 一 个 特别 的 例子 ，OGCE 工作 流 系统 提供 了 【〔 使 用 它 的 XBaya 前 端 ) 图 形 界面 
来 浏览 各 种 不 同 的 应 用 服务 注册 表 (例如 OGCE 的 XRegistry)。 

用 户 可 以 从 这 些 注册 表 中 把 任务 图 构建 成 工作 流 。 我 们 把 表示 采集 为 一 种 抽象 的 、 高 级 的 、 
以 工作 流 为 中 心 的 格式 ， 可 以 翻译 成 工作 流 运 行 的 相关 句法 。 目 前， 已 经 有 演示 把 BPEL'"1、 
Jython, Taverna SCUFL'”! 和 Pegasus DAXIe 1 集成 起 来 ， 并 且 存 在 于 不 同 的 支持 级 别 上 。 默 认 情 况 
和 下， 工作 流 的 实施 可 以 使 用 一 个 开源 BPEL 实现 来 辅助 完成 ， 它 是 Apache 的 编排 和 导演 引擎 
(Orchestration and Director Engine，ODE ) el ，OGCE 开发 者 强化 它 在 计算 网 格 上 支持 长 时 间 运 行 
的 科学 工作 流 。 

5.3.3.2 科学 应 用 管理 

科学 网 关 的 一 个 公共 任务 是 把 科学 应 用 封装 成 为 远程 可 访问 的 服务 。 想 要 提供 很 多 应 用 服 
务 的 网 关 需 要 一 个 简单 方法 来 把 这 些 应 用 快速 封装 。 然 而 ， 为 了 使 得 应 用 可 以 通过 网 关 使 用 ， 任 
务 封装 只 是 其 中 的 一 步 。 网 格 中 间 件 解决 方案 (图 $-8 所 示 的 第 2 层 ) 把 异 构 资 源 抽象 化 ， 为 排 
队 系 统 提供 了 一 个 单独 的 统一 作业 管理 接口 。 然 而 ， 资 源 和 网 格 中 间 件 仍然 十 分 复杂 ， 所 以 提供 
可 靠 而 又 具有 扩展 性 (在 用 户 数 上 ) 的 产品 级 别 的 科学 应 用 服务 是 一 个 困难 的 任务 ,， 但 这 些 服 
务 是 一 个 成 功 的 网 关 所 需要 的 。 网 关 常 常 为 所 有 的 这 些 问 题 彻底 改造 解决 方案 。 
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OGCE 的 GFAC 工具 设计 用 于 封装 命令 行 驱动 的 可 执行 文件 ， 并 使 它们 成 为 外 部 服务 。 
GFAC 的 主要 目标 是 提供 应 用 封装 问题 的 通用 解决 方案 ， 可 以 作为 插件 (plug-in) 服务 被 网 关 重 
新 用 在 已 部 署 的 基础 结构 中 。GFAC 生成 的 Web 服务 可 以 被 用 Java, Perl, PHP, Python 等 语言 
编写 的 客户 端 访问 。GFAC 封装 的 服务 可 以 作为 独立 的 工具 运行 ， 也 可 以 用 XRegistry 注册 以 便 后 
来 合并 到 工作 流 中 。GFAC 支持 持续 的 各 动态 创建 的 服务 。 

采用 GFAC 的 网 关 把 可 靠 性 和 扩展 性 问题 外 包 ， 从 而 把 更 多 的 资源 集中 在 领域 相关 的 问题 
上 。 由 于 大 气 发 现 的 链接 环境 (Linked Environments for Atmospheric Discovery, LEAD) 科学 网 
关 吧 的 大 量 努 力 ，0GCE 网 关 套 件 增 强 了 计算 作业 和 数据 迁移 的 容错 性 。0GCE 小 组 也 利用 了 大 
规模 协同 网 关 调试 ， 并 把 这 个 改进 应 用 到 高 级 支持 请 求 网 关 。 通 用 的 可 靠 性 和 容错 并 没有 解决 
全 部 问题 : 代码 会 出 于 网 关 开 发 者 控制 之 外 的 原因 而 无 法 运行 ， 所 以 必须 针对 应 用 来 制定 错误 
检测 、 记 录 和 解答 方法 。GFAC 开发 的 下 一 步 目 标 是 提供 网 关 的 可 延伸 性 来 解决 与 应 用 相关 的 错 
误 条 件 。 

5.3.3.3 gadget XZ 

工作 流 、 注 册 表 和 服务 封包 器 都 有 客户 端 和 服务 器 端的 部 分 。OGCE 把 它 的 大 多 数 默认 用 户 
接口 建成 了 gadget, gadget 是 客户 端的 Web 组 件 (图 5-8 中 的 第 4 层 ) ， 依 靠 HTML, CSS 和 
JavaScript， 而 不 是 特定 的 服务 器 端 开发 框架 。 科 学 网 关 的 gadget 需要 和 服务 器 端的 组 件 (图 5-8 
所 示 的 第 3 层 ) 进行 通信 。 这 可 以 使 用 REST 服务 来 完成 。 更 强 的 交互 性 、 更 简单 的 开发 和 自由 
使 用 大 量 服务 端 工具 使 得 gadget 成 为 科学 网 关 的 有 趣 组 件 模型 。 

OGCE Gadget 集 装 器 是 一 个 用 来 聚集 Web gadget 的 社会 兼容 的 开放 工具 。gadget 大 多 数 是 自 
我 包含 的 Web 应 用 ， 它 们 遵从 谷歌 gadget 或 开放 社会 标准 。gadget 集 装 器 为 一 个 特定 的 gadget 提 
供 操作 上 下 文 ， 它 可 能 会 驻 留 在 完全 独立 的 Web 服务 器 中 。0GCE Gadget 集 装 器 提供 布局 和 皮肤 
管理 以 及 用 户 级 定制 。 集 装 器 支持 对 于 注册 用 户 的 OpenID 认证 选项 和 对 于 gadget 的 OAuth 授权 。 
集 装 器 运行 在 HTTPS 安全 协议 下 ， 也 支持 集 装 器 和 gadget 之 间 的 安全 (HTTPS) 连接 。 

gadget 集 装 器 构建 在 Apache Shindig 之 上 ， 它 是 开放 社会 标准 的 参考 实现 。 这 人 允许 集 装 器 创建 
社会 兼容 的 开放 社会 网 络 。 集 装 器 也 支持 谷歌 FriendConnect， 它 为 社会 网 络 提供 了 一 个 简化 的 编程 
接口 。 

5.3.3.4 封装 

OGCE 软件 是 开源 的 ， 可 以 通过 SourceForge 下 载 ， 并 且 还 在 计划 为 GFAC、XBaya 和 支持 组 
件 启动 一 个 Apache Incubator 项 目 。 推 荐 的 下 载 方 式 是 采用 有 标签 发 行 的 SVN 客户 端 校 验 和 更 
新 。 当 前 的 OGCE 发 行 版 连接 起 了 几 个 组 件 项 目 。 每 一 个 子 项 目 可 以 单独 地 使 用 Apache Maven 
创建 ; 一 个 主 Maven POM 用 来 创建 所 有 的 子 项 目 。 这 个 方法 简化 了 开发 和 部 署 。 子 项 目 在 成 熟 
时 可 以 添加 进来 ， 在 有 重要 的 更 新 时 可 以 更 蔡 ， 也 可 以 抛弃 。 更 新 特定 的 组 件 时 不 需要 重建 整个 
软件 栈 ， 也 不 需要 开发 特定 的 补丁 系统 。OGCE 的 软件 栈 被 设计 为 可 移植 的 ， 并 且 可 以 在 多 个 平 
台 上 编译 。 

创建 一 个 有 用 的 科学 网 关 需 要 仔细 地 匹配 终端 用 户 需求 〈 即 要 支持 科学 用 例 ) 和 网 关 栈 的 
功能 。 更 进一步 ， 抛 开 实 现 问 题 不 说 ， 开 发 网 关 的 底层 工作 流 本 身 就 是 一 个 耗 时 的 科学 任务 。 通 
常 组 件 可 以 像 以 前 一 样 使 用 (例如 安全 证 书 管理 和 文件 浏览 器 ) ,但 是 OGCE 软件 很 可 能 会 被 网 
关 开 发 者 扩展 和 修改 。 

这 就 需要 科学 领域 专家 和 计算 机 基础 设施 专家 之 间 的 紧密 合作 。 长 期 可 持续 性 是 所 有 网 关 
都 面临 的 重要 挑战 ， 尤 其 是 那些 依靠 外 部 资源 提供 商 〈 如 TeraGrid 和 开放 科学 网 格 ( 见 图 5-8 的 
第 1 层 和 第 2 层 )) 的 网 关 。 这 些 资源 和 它们 的 中 间 件 在 不 断 进 化 ; 使 用 第 3 层 和 第 4 层 组 件 的 
网 关 如 果 没 有 及 时 地 维护 将 会 衰落 。 随 着 网 关 从 活路 的 开发 到 稳定 使 用 ,许多 网 关 的 挑战 是 使 用 
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5.4 发现、 注册 表 、 元 数据 和 数据 库 


分 布 式 应 用 需要 发 现 满足 需要 的 资源 并 管理 它们 。 在 SOA 中 ， 商 业 服务 需要 发 现 可 以 使 用 
和 集成 的 合适 服务 。 注 册 表 是 复杂 的 命名 和 目录 服务 ， 它 通过 分 类 和 归并 服务 或 关于 服务 的 元 
数据 信息 ， 在 设计 和 动态 运行 时 便利 了 服务 资源 发 现 。 为 了 存储 在 注册 表 中 的 元 数据 ， 注 册 项 需 
要 一 套数 据 结 构 规范 ， 为 了 存储 属 主 、 包 含 和 归 类 服务 的 元 数据 ， 还 需要 一 套 操作 (比如 创建 、 
读 取 、 更 新 和 删除 ) 来 存储 、 删 除 和 查找 数据 。 注 册 表 通常 包含 三 类 信息 : 

。 白 页 包含 实体 的 名 字 和 一 般 联 系 信息 。 

。 黄页 包含 条 目 提供 的 服务 类 型 和 位 置 的 分 类 信息 。 

。 绿 页 包含 如 何 调用 所 提供 服务 的 详细 信息 (关于 服务 的 技术 数据 ) 。 

除了 注册 表 以 外 ， 元 数据 或 者 关于 数据 的 信息 可 以 用 来 辅助 资源 和 所 需 服 务 的 发 现 。 元 数 
据 可 以 作为 元 数据 目录 保存 在 关系 型 或 XML 数据 库 中 ， 也 可 以 加 到 Web 服务 中 来 增强 服务 发 现 
能 力 。 把 发布 /订阅 模式 集成 到 数据 库 中 甚至 可 以 给 本 质 上 静态 的 数据 库 增 添 发 现 功能 ， 从 而 减 
少 了 由 于 大 量 应 用 投票 造成 的 单个 数据 库 的 负载 。 
5.4.1 UDDI 和 服务 注册 表 


UDDI ( Universal Description Discovery and Integration ， 统 一 描述 发 现 和 集成 ) Hye! He 
建 一 个 平台 无 关 的 开放 框架 定义 了 一 种 描述 、 发 布 和 发 现 关 于 Web 服务 信息 的 方法 。UDDI 提供 
了 名 字 服 务 和 目录 服务 来 通过 名 字 或 特定 的 属性 查找 服务 描述 。 它 最 初 是 在 2000 年 9 月 发 起 ， 
作为 IBM、 微 软 和 Ariba 关于 B2B 集成 的 共同 协作 。UDDI 版 本 3.0 已 经 作为 OASIS 规范 发 布 ， 
现在 它 成 为 OASIS 的 公共 服务 注册 表 标 准 。 
UDDI 规范 集中 在 一 批 服务 的 定义 ,它们 支持 以 下 内 容 的 描述 和 发 现 : 商业 、 组 织 和 其 他 
Web 服务 提供 商 ; 它们 提供 的 Web 服务 ; 以 及 用 来 访问 那些 服务 的 技术 接口 。 基 于 一 套 包 括 
HTTP. XML. XML 模式 和 SOAP 的 公共 工业 标准 ，UDDI 为 基于 Web 服务 的 软件 环境 提供 了 互 操 
作 的 基本 基础 设施 ， 可 以 用 在 公共 服务 和 只 供 组 织 内 部 使 用 的 服务 上 。 
注册 表 主 要 有 两 类 : 公共 注册 表 ， 这 是 一 个 逻辑 的 集中 式 分 布 服务 ， 彼 此 之 间 在 一 个 约定 的 
基础 上 复制 数据 ; 私有 注册 表 ， 仅 仅 在 单个 的 组 织 内 部 访问 ， 或 被 一 群 有 特定 目的 的 商业 伙伴 所 
共享 。 后 者 也 称 为 半 私 有 或 共享 注册 表 。UDDI 商业 注册 表 包 含 叫做 UDD 操作 的 镜像 注册 表 
(最 初 是 IBM 和 微软 主办 的 ) 。 
UDDI 注册 表 是 Web 服务 的 一 个 实例 ， 它 的 表 项 可 以 用 基于 SOAP 的 接口 来 发 布 和 查询 。 
UDDI 定义 了 可 编程 服务 描述 发 布 和 注册 表 查 询 的 数据 结构 与 API。UDDI 注册 表 中 的 数据 按照 实 
例 类 型 来 组 织 : 
è businessEntity: 描述 提供 Web 服务 的 组 织 或 公司 ,包括 它 的 名 字 、 企 业 联 系 信息 、 行 业 
列表 、 产 品 或 地 理 分 类 等 。 
businessService: 描述 一 个 组 织 提 供 的 Web 服务 的 一 系列 相关 实例 ， 例 如 服务 的 名 字 、 
描述 等 。 
bindingTemplate: 描述 使 用 一 个 特定 的 Web 服务 所 必需 的 技术 信息 ， 例 如 访问 这 些 Web 
服务 实例 的 URL 地 址 及 对 其 描述 的 引用 。 
tModel; 通用 Web 服务 的 WSDL 文档 规范 的 通用 容器 。 
publisherAssertion, 定义 两 个 或 更 多 的 businessEntity 元 素 之 间 的 关系 。 
subscription: 描述 了 保留 订阅 所 描述 实体 的 变化 轨迹 的 长 期 请 求 。 
businessEntity, businessService, bindingTemplate 和 tModel 这 些 实体 构成 了 UDDI 的 核心 数据 结 
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构 ， 它 们 中 的 每 一 个 都 可 以 单独 的 标识 ， 并 且 被 称 为 “UDDI 键 值 ” 的 URI 访问 。 图 5-10 描 
述 了 这 些 实体 及 其 相互 关系 。UDDI 注册 表 可 以 被 服务 提供 商 、 服 务 请 求 者 和 其 他 注册 表 使 
用 。UDDI 提供 了 一 套 API 用 于 这 些 和 注册 表 的 交互 。 对 于 UDDI 组 件 ， 有 两 种 基本 类 型 的 
API 操作 : 


UDDI 查询 API 操作 可 以 用 来 找到 注册 表 项 ， 例 如 和 特定 搜索 准则 匹配 的 企业 、 服 务 、 
绑 定 或 tMode 细节 (find_ ), 或 者 提供 和 给 定 UDDI 键 值 相应 的 表 项 细节 (get )。 
UDDI 发 布 者 API 通过 提供 save_ 和 delete 操作 使 得 可 以 进行 表 项 的 增加 、 修 改 和 删除 。 
除了 上 面 提 到 的 查询 API 外 ，UDDI 也 定义 了 通用 目的 操作 类 型 ， 如 next 4 specialized API, 


e UDDI 安全 API ”人 允许 获得 或 丢弃 认证 令 牌 (get_autToken discard_autToken) 。 


UDDI 监护 和 所 有 权 转 移 API ”让 注册 表 能 够 在 它们 自己 之 间 转 移 信息 的 监护 权 ， 并 且 把 
这 些 结构 的 所 有 权 从 一 个 转 到 男 一 个 (transfer_entities ,transfer_custody) 。 

UDDI 订阅 API 通过 订阅 记录 新 的 、 修 改 的 和 删除 的 表 项 来 监控 注册 表 的 变化 (delete_ 
subscription , get_subscriptionResults , get_subscriptions , save_subscriptions ) 。 


UDDI 复制 API 支持 注册 表 之 间 的 信息 复制 ， 这 样 不 同 的 注册 表 可 以 保持 同步 。 


虽然 UDDI 是 一 个 开放 的 标准 ,但 是 它 却 从 来 没有 在 不 同 的 企业 和 科学 社区 中 流行 起 来 ， 因 
为 在 2006 年 1 月 ，IBM、 微 软 和 SAP 关闭 了 通用 商业 注册 表 的 公共 节点 之 后 ， 并 没有 全 球 性 的 
注册 表 按 照 UDDI 规范 来 注册 企业 、e-Science 或 网 格 服务 。 但 是 ， 有 几 个 不 同 的 社区 发 布 了 几 个 
公共 注册 表 用 来 公开 使 用 ， 它们 提供 了 多 种 服务 及 其 相关 API 的 分 类 列表 ， 其 中 之 一 是 
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ProgrammableWeb. com 是 按照 类 别 、 日 期 或 流行 程度 组 织 起 来 的 各 种 Web 2.0 应 用 的 注册 
K, pin RARA” (mashup) 和 API。 它 和 UDDI 有 类 似 的 目标 ， 但 是 并 没有 使 用 UDDI 的 规 
范 细节 。 混 搭 系统 组 合 了 基于 Web 的 现 有 应 用 的 功能 ， 比 较 典 型 的 是 REST 的 Web 服务 。 混 搭 
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系统 可 以 和 工作 流 相 类 比 ， 因 为 它们 都 在 服务 级 实现 了 分 布 式 编程 。 混 搭 系统 中 的 内 容 通过 公 
共 接口 或 API 来 自 于 第 三 方 。 根 据 ProgrammableWeb. com 注册 表 发 布 的 数据 “': ， 多 数 混 措 系统 
和 API 应 用 于 地 图 、 搜 索 、 旅 游 、 社 会 、 即 时 通信 、 购 物 、 视 频 领 域 。 

混搭 系统 内 容 来 源 的 其 他 方法 包括 Web 种 子 【如 RSS) 和 JavaScript, Web 开发 者 可 以 使 用 
提供 的 API， 基 于 XML、RSS、OpenSearch 和 原子 发 布 协议 (Atom Publishing Protocol, APP) '*)3x 
些 开放 的 标准 从 ProgrammableWeb. com 目录 中 可 编程 地 搜索 和 检索 API、 混 搭 系统 、 成 员 概 况 和 
其 他 数据 ， 把 按 需 注册 表 和 仓库 服务 集成 到 任何 服务 或 在 已 有 的 表 项 上 动态 添加 新 的 内 容 和 评 
论 。 在 最 流行 的 混搭 系统 中 ， 为 谷歌 地 图 、Flickr、Facebook、Twitter 和 YouTube 开发 的 是 网 站 上 
常 使 用 的 。 

5.4.2 数据 库 和 订阅 -发 布 

订阅 -发 布 是 在 分 布 式 应 用 之 间 实 现 异 步 交 互 的 设计 模式 ， 我们 已 经 在 5.2 节 中 间 件 的 
部 分 讨论 过 它 。 许 多 高 级 应 用 为 了 使 它们 的 运行 和 信息 相 适 应 而 要 定期 地 查询 数据 库 。 这 种 
周期 性 的 数据 轮 询 不 仅 效率 低 和 无 法 扩展 ， 而 且 也 在 两 端 消耗 了 大 量 资源 ， 尤 其 是 数据 库 的 
调用 间隔 很 短 或 者 有 多 个 消费 者 应 用 的 情况 下 ， 它 会 大 大 增加 网 络 通信 的 流量 和 CPU 的 使 用 。 
发 布 - 订阅 机 制 解决 了 这 一 问题 ， 它 已 经 在 今天 的 应 用 实现 中 大 量 采 用 。 在 发 布 -订阅 交互 
中 ， 事 件 订阅 者 注册 了 某 个 事件 类 型 ， 当 事件 发 布 者 产生 这 样 的 事件 时 ， 订 阅 者 就 会 从 发 布 
者 处 得 到 通知 。 

在 事件 发 布 者 和 事件 订阅 者 之 间 存 在 一 个 动态 的 多 对 多 的 关系 ， 对 于 在 任何 时 间 可 能 变化 
的 任何 类 型 事件 ， 可 以 有 任何 数量 的 发 布 者 /订阅 者 。 发 布 -订阅 为 数据 库 的 静态 本 质 增加 了 动 
态 性 。 发 布 - 订阅 模式 第 一 次 的 实现 是 在 集中 式 客 户 端 / 服 务 器 系统 中 ， 而 当今 的 研究 主要 集中 
在 分 布 式 版 本 上 。 分 布 式 发 布 - 订阅 机 制 的 关键 好 处 是 发 布 者 和 订阅 者 实现 了 自然 的 解 耦合 。 
由 于 发 布 者 并 不 知道 他 们 数据 的 潜在 顾客 ， 订 阅 者 也 不 知道 感 兴趣 数据 的 潜在 生产 者 位 置 ， 所 
以 发 布 / 订 阅 系 统 的 客户 端 接口 非常 简单 和 直观 。 

发 布 -订阅 系统 可 以 分 为 基于 主题 的 和 基于 内 容 的 。 在 基于 主题 的 系统 中 ,发布 者 按照 主 
题 或 主体 生成 事件 。 然 后 订阅 者 指定 他 们 的 兴趣 在 某 个 主题 ， 就 会 收 到 关于 那个 主题 的 所 有 事 
件 。 仅 仅 根 据 主 题名 称 来 定义 事件 是 不 灵活 的 ， 它 需要 订阅 者 来 过 滤 属 于 一 般 主 题 的 事件 。 基 于 
内 容 的 系统 通过 引 人 基 于 事件 内 容 的 订阅 模式 解决 了 这 一 问题 。 因 为 基于 内 容 的 系统 让 用 户 指定 很 
多 精心 定义 的 属性 值 ， 从 而 给 用 户 以 表达 兴趣 的 能 力 ， 因 此 显得 更 受 欢 迎 。 发 布 〈 事 件 ) 和 订阅 
(兴趣 ) 之 间 的 匹配 基于 内 容 来 完成 。 分 布 式 的 解决 方案 主要 集中 在 基于 主题 的 发 布 / 订 阅 系统 。 

数据 库 系统 提供 了 基于 消息 传递 的 体系 结构 可 以 使 用 的 许多 特性 ,例如 可 靠 的 存储 、 事 务 
和 触发 器 。 另 外 ， 在 数据 库 中 集成 发 布 -订阅 功能 说 明 信 息 共享 的 系统 更 容易 部 署 和 维护 。 然 而 
由 于 发 布 -订阅 和 数据 库 技术 是 独立 发 展 的 ， 数 据 库 - 发 布 -订阅 感知 系统 的 设计 和 实现 需要 
把 来 自 两 个 世界 的 概念 和 功能 联系 到 一 起 。 

Jean Bacon 等 人 Lo 扩展 了 开源 数据 库 管 理 系统 PostgreSQL， 使 其 包含 了 发 布 - 订阅 中 间 件 功 
能 。 它 基于 主动 数据 库 和 发 布 - 订阅 通信 模型 的 集成 ， 构 成 了 一 个 全 球 的 基于 事件 的 系统 : 数据 
库 定 义 和 广 告 改变 的 事件 ， 客 户 订阅 感 兴趣 的 事件 ， 然 后 通过 基于 内 容 的 过 滤器 表达 式 细 化 他 
们 的 订阅 。 这 样 允许 本 地 域 的 数据 库 系 统 可 以 作为 事件 中 介 (中 介 )， 在 发 布 者 、 订 阅 者 和 其 他 
中 介 之 间 可 靠 地 路 由 事件 。 通 过 在 同一 接口 下 分 组 数据 库 和 发 布 - 订阅 操作 的 安全 、 配 置 〈 例 
如 类 型 模式 ) 和 恢复 任务 ， 这 个 集成 简化 了 信息 管理 。Aktas 描述 了 在 网 格 信息 系统 中 发 布 - 
阅 的 应 用 中 1。 





消息 队列 和 发 布 - 订阅 紧密 地 缠绕 在 一 起 : 如 图 5-11 所 示 ，Oracle 为 企业 信息 传递 和 消息 
发 送 引 入 了 发 布 -订阅 解决 方案 。 基 于 高 级 队列 方式 ， 一 个 基于 JMS (Java 消息 服务 ) 的 完全 集 
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成 在 Oracle 数据 库 里 的 实现 ， 用 来 为 分 布 式 应 用 发 布 数据 变化 和 自动 化 商业 过 程 工作 流 。 可 以 使 
用 本 体 论 和 其 他 语义 机 制 来 使 得 系统 中 的 事件 更 加 “上 下 文 感知 。Oracle 8 引入 了 高 级 队列 ， 
Oracle 9i 扩展 到 支持 发 布 - 订阅。 在 Oracle 版 本 10.1 中 ， 在 Oracle 流 中 集成 了 高 级 队列 ， 称 为 
Oracle 流 高 级 队列 。 





应 用 发 布 订阅 应 用 





规则 和 转换 


C 09 _) 


高 级 队列 


订阅 应 用 








图 5-11 Oracle 发 布 -订阅 模型 


在 应 用 之 间 引 入 特性 的 组 合 来 允许 消息 传送 的 发 布 - 订阅 风格 。 这 些 特性 包括 基于 规则 的 
订阅 者 、 消 息 传播 、 侦 听 特 性 和 通知 能 力 。Oracle 流 高 级 队列 建立 在 Oracle 流 之 上 ， 利 用 Oracle 
数据 库 的 功能 ， 这 样 消 息 可 以 长 期 保存 ， 在 不 同 的 计算 机 和 数据 库 上 面 的 队列 之 间 传 播 ， 使 用 
Oracle 网 络 服务 和 HTTP(S) 传 输 。 由 于 Oracle 流 高 级 队列 是 在 数据 库 的 表 里 面 实现 ， 因 此 所 有 高 
可 用 性 、 扩 展 性 和 可 靠 性 的 操作 优点 也 适用 于 排队 数据 。Oracle 流 高 级 队列 支持 像 恢复 、 重 启 和 
安全 这 些 标准 的 数据 库 特 性 。 可 以 使 用 像 Oracle 企业 管理 器 这 样 的 数据 库 开 发 和 管理 工具 来 监控 
队列 。 和 其 他 数据 库 表格 一 样 ， 队 列表 格 可 以 被 输入 和 输出 。 

5. 4.3 元 数据 目录 

在 像 网 格 这 样 的 分 布 式 异 构 环 境 中 ， 元 数据 目录 扮演 一 个 重要 的 角色 ， 它 们 为 用 户 和 应 用 
在 这 种 环境 下 提供 了 在 大 量 站 点 之 间 发 现 和 定位 所 需要 的 数据 和 服务 的 方式 。 元 数据 是 关于 数 
据 的 信息 。 元 数据 很 重要 ， 因 为 它 为 了 识别 、 定 位 和 解释 数据 ， 给 数据 增加 了 上 下 文 。 网 格 上 的 
关键 元 数据 包括 数据 源 的 名 称 和 位 置 、 在 这 些 数据 源 中 数据 的 结构 、 数 据 项 名 称 和 描述 以 及 用 
户 信息 〈 姓 名 、 地 址 、 概 括 和 偏好 ) 或 者 可 用 服务 的 基本 列表 和 简单 查找 、 没 有 丰富 上 下 文 的 
相关 函数 和 位 置 。 各 种 群 组 和 社区 使 用 元 数据 目录 ， 从 高 能 物理 到 生物 医学 、 地 球 天 文 观测 站 和 
地 理科 学 。 

因为 元 数据 服务 在 本 地 或 广 域 大 规模 存储 资源 应 用 中 的 重要 性 ， 许 多 研究 组 致力 于 研究 和 
实现 这 些 服务 。 在 最 早 的 元 数据 目录 中 ， 值 得 一 提 的 是 元 数据 目录 服务 (Metadata Catalogue 
Service, MCS)! ， 它 是 后 来 演化 为 iRODS 系统 名] 的 存储 请 求 中 介 (Storage Request Broker, 
SRB)" 的 一 部 分 。 圣 地 亚 哥 超 级 计算 中 心 开发 的 MCAT， 目 标 在 于 为 计算 中 心 内 部 或 外 部 的 异 
构 存 储 服务 和 文件 系统 之 上 提供 抽象 层 。MCAT 通过 多 个 树 以 层次 化 的 方式 存储 数据 ， 既 是 文件 
目录 也 是 元 数据 目录 。MCAT 的 后 来 版 本 支持 数据 源 的 复制 和 联盟 。 

Globus 联盟 '*! 开 发 的 MCS 提供 了 元 数据 的 层次 化 组 织 和 灵活 的 模式 ， 并 向 用 户 隐 藏 了 存储 
后 端 。Globus 项 目 也 包含 镜像 位 置 服务 (Replica Location Service，RLS)Iel ， 它 使 用 索引 服务 器 
在 不 同 的 镜像 目录 提供 一 个 较 少 使 用 的 全 球 列表 。LHC 的 几 个 实验 使 用 标准 的 关系 型 数据 库 后 
端 实现 了 它们 自 有 的 元 数据 目录 ， 在 分 布 式 环境 上 为 访问 目录 提供 了 一 个 中 间 层 。 

AMGA (网 格 应 用 的 ARDA 元 数据 ) O E ECEE 项 目 gLite 软件 栈 的 官方 元 数据 目录 。 它 起 
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初 是 研究 LHC 实验 的 元 数据 需求 的 一 个 探索 性 项 目 ， 之 后 被 来 自 不 同 用 户 社区 的 几 个 小 组 部 署 ，， 


包括 高 能 物理 (LHCb 簿 记 )、 生 物 医 学 和 地 球 天 文 观测 站 。AMGA 使 用 保存 在 关系 型 数据 库 中 
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类 似 文件 系统 的 层次 化 模型 来 结构 化 元 数据 。 它 存储 了 表示 像 文件 这 样 要 被 描述 的 实体 的 表 项 。 
表 项 分 组 为 集合 ， 可 以 有 不 同 数 量 的 用 户 定义 的 属性 ， 称 为 集合 模式 。 

属性 表示 为 类 型 信息 的 键 - 值 对 ， 每 一 个 表 项 都 为 它 的 集合 属性 赋予 了 一 个 唯一 的 值 。 模 
式 可 以 是 一 个 目录 的 表示 ， 可 以 包含 表 项 或 其 他 模式 。 这 种 树 形 结构 的 好 处 是 ， 用 户 可 以 定义 层 
次 化 的 结构 ， 以 便 帮 助 在 可 以 独立 查询 的 子 树 中 更 好 地 组 织 元 数据 。 服 务 器 通过 使 用 模块 支持 
几 个 存储 系统 。AMGA 可 以 管理 不 同 目录 权限 的 多 个 用 户 群 组 。 在 网 格 环境 下 ， 用 户 使 用 文件 和 
元 数据 目录 来 在 数 百 个 网 格 站 点 之 间 发 现 和 定位 数据 。 
5.4.4 语义 Web 和 网 格 


网 格力 求 在 动态 的 大 型 分 布 式 环境 中 为 了 服务 和 资源 的 自动 化 信息 发 现 和 集成 而 共享 和 访 
问 元 数据 。 与 此 同时 ， 语 义 Web 是 关于 自动 化 发 现 和 集成 的 ; 给 数据 增加 机 器 可 处 理 的 语义 ， 
这 样 计 算 机 可 以 理解 这 些 信息 并 代表 终端 用 户 处 理 它 ， 从 而 基于 为 Web 页 面 附加 丰富 元 数据 而 
使 Web 搜索 和 链接 更 加 智能 。 语 义 Web 旨 在 提供 一 个 环境 ， 在 里 面 软件 代理 能 够 动态 地 发 现 、 

309] 询问 和 互 操 作 资源 并 代替 人 执行 复杂 的 任务 ， 这 离 网 格 计 算 的 目标 已 经 不 远 。 

为 了 达到 这 一 目的 ， 已 经 进行 了 很 多 工作 来 保证 在 公共 数据 模型 资源 描述 框架 
(Resource Description Framework, RDF) 中 Web 资源 的 含义 ，RDF 使 用 以 公共 语言 《如 OWL 
Web 本 体 语 言 ) 表示 的 一 致 本 体 论 ， 这 样 我 们 可 以 共享 元 数据 ， 并 且 增 加 到 背景 知识 中 。 从 这 
个 基础 上 ， 我 们 应 该 可 以 查询 、 过 滤 、 集 成 和 聚集 元 数据 ， 并 应 用 规则 和 策略 在 它 的 上 面 推理 出 
更 多 的 元 数据 。 

RDF 是 为 语义 Web 开发 的 第 一 个 语言 ， 使 用 XML 来 表示 Web 上 资源 的 信息 (包括 元 数 
据 ) RDF 使 用 Web 标识 符 (URI) ， 并 且 从 简单 的 属性 和 属性 值 方面 来 描述 资源 。OWL 是 拓展 
了 RDF 模式 的 一 个 描述 性 本 体 语言 。0WL 为 描述 属性 和 类 别 增 加 了 更 多 的 词汇 ; 在 类 别 、 集 合 
的 势 、 等 价 、 更 为 丰富 的 属性 类 型 、 属 性 特征 和 枚 举 类 之 间 的 关系 。 

语义 Web 服务 使 用 明确 的 机 器 可 理解 的 语义 描述 和 标记 了 各 种 不 同 的 Web 服务 ， 便 利 了 资 
源 和 Web 服务 的 发 现 、 运 行 监控 和 聚集 ， 解 决 了 互 操作 问题 ， 帮 助 把 资源 合成 到 一 起 来 创建 虚 
拟 组 织 。OWL-S 本 体 论 使 得 Web 服务 可 以 从 语义 上 描述 ， 它 们 的 描述 可 以 被 软件 代理 处 理 和 理 
解 。 它 创建 了 一 个 标准 词汇 表 ， 可 以 和 OWL 描述 语言 的 其 他 方面 一 起 用 来 创建 服务 描述 。OWL- 
S 本 体 论 定义 了 顶层 概念 “服务 ”和 三 个 OWL-S 子 本 体 论 : 

. © 服务 框架 : 表示 为 了 使 服务 能 被 广告 和 发 现 ， 一 个 服务 做 了 什么 。 

。 服务 模型 : 描述 服务 是 怎么 工作 的 ， 以 便服 务 能 够 被 调用 、 合 成 、 监 控 和 恢复 。 

。 服务 基础 : 指定 了 怎样 访问 服务 的 细节 。 基 础 可 以 理解 为 从 抽象 到 具体 规范 的 映射 ， 它 

基于 WSDL 作为 特定 的 规范 语言 。 

“语义 网 格 ” 或 “ 带 有 语义 的 网 格 ” 旨 在 利用 网 格 、 语 义 Web 和 Web 服务 的 优点 。 建 造 在 
W3C 语义 Web 倡议 的 基础 上 ， 它 是 当前 网 关 的 拓展 ， 其 中 精心 设计 了 信息 和 服务 的 定义 〔 像 在 
语义 Web 和 软件 代理 范例 中 学 到 的 本 体 论 、 标 记 和 协商 过 程 )， 更 好 地 使 得 计算 机 和 人 们 协同 工 
作 。 语 义 网 格 不 仅 为 使 能 管理 和 复杂 资源 的 共享 以 及 推理 机 制 提供 一 般 的 基于 语义 和 知识 的 计 
算 服务 ， 而 且 系 统 地 提供 有 丰富 语义 的 信息 和 资源 来 构建 更 为 智能 的 网 格 服务 。 

图 5-12 和 图 5-13 中 所 示 语 义 网 格 的 概念 首次 清晰 地 表达 是 在 e-Seience 的 上 下 文中 ， 这 是 在 
不 同 社区 (如 物理 学 家 、 生 物 学 家 、 化 学 家 等 ) 科学 家 之 间 的 科学 调查 ， 同 时 调查 他 们 的 资源 ， 
这 项 调查 通过 分 布 式 全 球 协作 (如 网 格 ) 来 完成 ， 通 过 有 效 地 产生 、 分 析 、 共 享 和 讨论 观点 、 
实验 与 结果 ， 以 及 这 个 共同 努力 能 够 得 以 实现 的 计算 基础 设施 来 解决 科学 问题 。 更 高 层次 的 服 
务 使 用 与 资源 功能 相关 的 信息 和 服务 实现 机 制 来 自动 地 发 现 互 操作 的 服务 并 为 用 户 选 择 最 合适 

GB10| 且 人 类 参与 最 小 的 服务 。 
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网 格 的 语义 


图 5-12 语义 网 格 的 相关 概念 和 技术 
注 : 由 Goble 和 Roure 提供 ，ECAI-2004[95] 。 





高 级 网 格 














网 格 中 间 件 组 织 











图 5-13 语义 网 格 体系 结构 
注 ; 由 Goble 和 Roure #4, ECAI-2004!%! 。 


语义 0GSA (S-0GSA)'” 被 提出 作为 基于 语义 网 格 的 参考 体系 结构 。S- OGSA 扩展 了 
0GSA， 使 其 支持 语义 的 明确 处 理 ， 并 且 定 义 了 相关 的 知识 服务 来 支持 一 批 服务 功能 。 这 个 功 
能 的 实现 是 通过 引入 语义 供应 服务 ， 通 过 允许 各 种 不 同形 式 的 知识 和 元 数据 的 创建 、 存 储 、 
更 新 、 删 除 和 访问 支持 语义 的 供应 。 这 套 服务 包括 本 体 论 管理 和 推理 服务 、 元 数据 服务 和 标 
注 服务 。 

”S-OGSA 有 三 个 主要 方面 : 模型 (构成 元 素 及 其 相互 关系 )、 功 能 (需要 处 理 这 些 组 件 的 服 
务 ) 和 机 制 〈 在 以 网 格 平台 为 基础 的 应 用 中 部 署 体系 结构 时 使 元 素 能 够 传递 ) 。 作 为 致力 于 电子 
科学 变化 的 语义 网 格 工作 的 先锋 ，myGrid!e 1 项目 社区 研发 了 一 套 工 具 和 服务 来 使 各 种 生物 数据 
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和 计算 资源 能 够 基于 工作 流 合成 。 在 这 个 项 目 中 ,语义 Web 技术 被 应 用 在 网 格 环境 下 资源 发 现 
和 工作 流 结果 管理 的 问题 中 。 
5.4.5 ”作业 执行 环境 和 监控 

分 布 式 作业 执行 环境 常常 包含 两 个 组 件 : 作业 执行 引擎 和 分 布 式 数据 管理 系统 。 作 业 执 
行 引擎 主要 处 理 作业 调度 、 资 源 分 配 和 诸如 容错 等 其 他 问题 。 数 据 管理 系统 常常 为 作业 访问 
分 布 式 数据 提供 抽象 。 近 年 来 ,为 了 处 理 互 联网 级 别 信息 管理 和 处 理 的 不 断 增长 的 需要 ， 许 
多 互联 网 服务 公司 为 了 特定 需要 建立 了 他 们 自己 的 分 布 式 系 统 。 大 多 数 这 些 系 统 提供 分 布 式 
运行 引擎 ， 支 持 集成 的 应 用 。 谷 歌 MapReduce! 和 微软 Dryad'” 是 第 6 章 中 描述 的 这 种 系统 
的 两 个 例子 。 

MapReduce 主要 设计 用 于 支持 使 用 和 产生 大 数据 集 的 谷歌 应 用 。 它 从 这 些 应 用 中 概括 出 了 
map/reduce 抽象 ， 为 程序 的 分 布 式 运行 提供 了 一 个 简单 的 编程 接口 。 程 序 之 间 的 通信 概括 为 键 值 
对 的 交换 。 谷 歌 文件 系统 (Google File System，GFS)"™ 支持 这 些 键 值 对 的 存储 。 通 过 这 些 分 布 
式 程序 的 并 行 调度 可 以 做 到 并 行 化 。Dryad 和 MapReduce 有 类 似 的 范围 ， 但 是 通过 明确 指定 有 向 
无 环 图 (Directed Acyclic Graph, DAG) 可 以 任意 地 构建 应 用 的 依赖 性 。 类 似 于 UNIX 管道 ， 它 支 
持 数据 沿 着 从 一 个 作业 的 输出 到 另 一 个 作业 的 输入 的 链 路 流动 。 

MapReduce 中 的 调度 机 制 通过 使 用 GFS 元 数据 服务 器 提供 的 数据 位 置信 息 来 考虑 数据 的 局 部 
性 。 在 为 Web 服务 器 集群 使 用 的 位 置 感知 请 求 分 布 式 ( Location- Aware Request Distribution, 
LARD) 算法 中 采用 了 类 似 的 调度 策略 5" ， 基 于 数据 位 置 以 及 托管 数据 服务 器 的 主动 连接 来 调 
EWR. LARD 允许 动态 地 创建 复制 。 

建造 在 发 布 -订阅 模型 之 上 的 对 接 是 调度 计算 复杂 作业 的 常用 方法 。 像 Condor" 一 样 的 网 
格 计算 中 间 件 使 用 这 样 的 机 制 来 分 配 作 业 。Condor 对 接 允 许 代 理 以 半 结 构 化 数据 的 方式 处 理 用 
户 的 作业 请 求 和 资源 来 发 布 作业 需求 和 资源 描述 。 代 理 和 资源 订阅 给 一 个 介绍 人 ， 它 根据 数据 

中 指定 的 偏好 和 限制 扫描 已 发 布 的 数据 和 带 有 资源 的 配对 作业 。 一 旦 匹配 形成 ， 介 绍 人 就 通知 
匹配 代理 和 资源 。 然 后 代理 和 资源 建立 起 联系 并 执行 作业 。 

Dryad 有 一 个 类 似 的 调度 机 制 。 在 有 向 无 环 图 中 一 个 顶点 的 每 次 运行 都 有 一 个 运行 记录 ， 保 
留 了 提供 输入 数据 的 前 一 个 顶点 的 运行 状态 和 版 本 。 当 输入 数据 准备 好 的 时 候 就 把 项 点 放 到 调 
度 队列 中 。 运 行 顶点 的 约束 和 偏好 与 它 的 运行 记录 相关 【〔 例 如 ， 顶 点 会 有 一 个 它 愿意 在 上 面 运 
行 的 计算 机 列表 ， 或 者 更 喜欢 停留 在 保存 有 数据 集 的 计算 机 上 ) 。 然 后 调度 器 通过 把 顶点 分 配给 
资源 进行 匹配 。 这 种 方法 有 很 长 的 历史 ， 可 以 追溯 到 Linda 编程 模型 "和 Linda 产生 的 中 间 件 ， 
例如 JavaSpaces'') ， 其 中 作业 发 布 在 一 个 生成 消息 队列 的 共享 空间 ， 可 以 被 订阅 空间 的 资源 
消费 。 

由 于 作业 可 以 分 配 到 不 同 的 节点 ， 典 型 的 作业 运行 环境 需要 分 布 式 数据 管理 系统 的 支持 ， 
让 作业 访问 远程 的 数据 集 ， 有 时 也 和 其 他 的 作业 交换 数据 。 如 上 所 述 ，GFS 支持 MapReduce, 
Dryad 也 有 一 个 类 似 于 GFS 的 分 布 式 存储 系统 ， 可 以 把 大 文件 分 解 为 小 块 。 然 后 这 些小 块 沿 着 
系统 中 节点 的 磁盘 进行 分 配 和 复制 。 作 业 之 间 的 通信 信道 常常 是 基于 文件 的 。 通 过 分 布 式 存 
储 系统 ， 文 件 可 以 透明 地 从 一 个 作业 传 到 另 一 个 作业 。 通 过 建构 在 分 布 式 存储 系统 之 上 的 抽 
象 层 ， 可 以 支持 访问 和 交换 有 特定 结构 的 数据 。 谷 歌 BigTable'™ #0 FH Dynamo"! HB BH 
个 例子 。 

6. 3 节 描 述 的 BigTable 中 的 数据 抽象 是 一 个 多 维 的 有 序 图 ，Dynamo 中 的 是 键 - 值 对 。 使 用 这 
些 抽象 ， 作 业 可 以 从 系统 中 的 任何 一 个 节点 访问 多 维 数据 或 键 - 值 对 。 这 样 的 结果 是 ， 如 今 的 作 
业 执 行 环境 非常 强大 。 它 不 仅 能 够 运行 计算 作业 ， 还 能 运行 各 种 数据 密集 型 作业 。 然 而 ， 由 于 在 
分 布 式 环境 中 维护 数据 的 一 致 性 需要 很 高 的 代价 ， 这 样 的 作业 运行 环境 对 运行 有 很 强 一 致 性 要 
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求 的 应 用 有 一 定 的 限制 。 目 前 ，Bigtable 和 Dynamo 仅仅 支持 松弛 的 一 致 性 。 

在 大 型 分 布 式 系统 中 ， 应 用 程序 是 动态 地 分 配 到 任何 一 台 计 算 机 上 和 运行， 收集 与 应 用 和 资 
源 状态 有 关 信 息 的 能 力 对 于 系统 实现 高 效率 、 检 测 故 障 或 风险 以 及 跟踪 系统 状态 都 非常 关键 。 
现今 的 分 布 式 系统 常常 带 有 一 个 复杂 的 监控 子 系统 。 例 如 亚马逊 使 用 的 Astrolabe”™ Astrolabe 
监控 了 一 批 分 布 式 资源 的 状态 ， 能 够 通过 聚集 连续 地 计算 系统 中 数据 的 总 计 。 它 的 聚集 机 人 制 被 
SQL 查询 驱动 (例如 查询 SELECT MIN (load) AS load 返回 系统 中 最 小 的 负载 ) 。 

怎样 从 大 量 的 节点 中 动态 地 聚集 这 些 信息 是 富有 挑战 性 的 。 在 集群 中 传统 的 监控 系统 不 能 
扩展 到 超过 几 十 个 节点 "™] Astrolabe 为 了 实现 可 扩展 性 采用 了 分 散 的 方式 。 它 在 每 个 节点 运行 
一 个 代理 。 代 理 之 间 通 过 流言 协议 (gossip protocol) 互相 通话 。Astrolabe 管理 的 信息 采用 层次 化 BB 
方式 组 织 。 每 个 代理 都 维护 一 个 含有 层次 子 集 的 数据 结构 。 本 地 信息 在 代理 中 直接 更 新 。 需 要 层 
次 内 部 节点 信息 的 代理 可 以 从 相关 负责 代理 处 获得 层次 中 的 孩子 信息 。 层 次 中 兄弟 节点 的 信息 
可 以 通过 相关 代理 用 流言 协议 获得 。 流 言 协 议 非常 简单 ， 每 个 代理 周期 性 地 随机 选择 男 一 个 代 
理 并 与 之 交换 信息 。 交 换 的 信息 是 两 个 代理 的 最 小 公共 祖先 。 

通过 这 种 机 制 ，Astrolabe 能 够 获得 分 布 式 状态 的 快照 。 这 个 状态 是 动态 地 聚集 产生 ， 没 有 一 
个 中 心 代理 来 保存 所 有 的 信息 。 然 而 ， 案 集 信息 会 在 过 程 中 涉及 的 所 有 相关 代理 之 间 复 制 ， 这 就 
产生 了 一 致 性 问题 。 提 取 同 一 数据 属性 的 两 个 用 户 会 得 到 不 同 的 结果 。Astrolabe 仅仅 支持 称 为 结 
果 一 致 性 的 松散 一 致 性 ， 即 给 定 一 个 聚集 属性 X， 它 依靠 另 一 属性 Y，Astrolabe 能 够 保证 对 于 了 
的 更 新 最 终 会 影响 到 X。 这 样 的 监控 系统 对 于 作业 运行 环境 是 很 重要 的 ， 尤 其 是 当 底层 的 系统 扩 
展 的 时 候 。 


5.5 面向 服务 的 体系 结构 中 的 工作 流 


在 5.1 节 中 ,我 们 把 服务 描述 成 构建 分 布 式 系统 的 基本 单元 。 然 而 一 个 “真实 的 系统 ” 包 
含 多 个 相互 作用 的 (整体 的 ) 服务 ， 如 图 5-14 所 示 。 尤 其 是 图 1-22 所 示 的 一 个 简单 的 传感器 
(可 能 只 有 一 个 输出 数据 流 ) 和 一 个 完整 的 网 格 (有 多 个 输入 和 输出 消息 端口 的 一 批 服务 ) A 
此 ， 原 型 的 完整 系统 可 能 是 “服务 网 格 ”， 但 是 我 们 也 称 为 “网 格 的 网 格 ”， 甚 至 称 为 “ 云 网 
格 ”。 在 图 5-14 H, 我们 在 “关键 基础 设施 ”的 不 同 领 域 建造 了 多 个 应 用 网 格 。 组 件 网 格 ( 子 
网 格 ) 被 激活 用 来 协作 、 可 视 化 、 传 感 器 融合 、 计 算 和 地 理 信息 系统 (Geographical Information 
System, GIS) 应 用 。 这 构建 在 5.2 47, 5.3 节 和 5.4 节 介 绍 的 关于 核心 网 格 的 功能 上 上 。 通 过 增加 
特定 应 用 服务 ， 人 们 可 以 搭建 支持 水 、 天 然 气 或 电网 基础 设施 的 分 布 式 系 统 。 工 作 流 用 来 集成 组 
件 网 格 和 服务 。 需 要 注意 的 是 ， 这 里 的 讨论 主要 是 关于 网 格 ， 但 是 同样 适用 于 云 。 第 7 章 将 更 详 
细 地 讨论 网 格 计算 。 

5.5.1 工作 流 的 基本 概念 

在 5.2 节 ，, 我 们 介绍 了 服务 和 组 件 网 格 之 间 管 理 消息 的 方法 ,但 是 这 里 我 们 主要 集中 在 工作 
流 ， 它 是 “对 服务 之 间 交 互 进行 编程 ”的 方法 。 同 称呼 工作 流 描 述 了 “为 Web 或 网 格 编程 ”一 
EE, 我 们 也 可 以 使 用 诸如 “软件 协调 ”、“ 服 务 编 排 "、“ 服 务 或 过 程 协调 ”、“ 服 务 会话 ”、“Web 
或 网 格 脚本 ”、“ 应 用 集成 ”或 “软件 总 线 ” 之 类 的 名 字 。 

这 是 一 个 非常 活跃 的 研究 领域 ， 有 不 同 的 研究 方法 ,分 别 强调 控制 流 、 调 度 和 数据 流 。 文 献 
[15, 107 ~110] 是 关于 数据 流 的 一 些 最 近 的 综述 。 必 须 注 意 工 作 流 意味 着 分 布 式 系统 的 两 层 编 
程 模型 。 基 本 服务 采用 传统 语言 (C、C ++ Fortran, Java, Python) 进行 编程 ， 工 作 流 描述 了 
服务 之 间 彼 此 交互 的 粗 粒 度 编程 。 每 一 个 服务 使 用 传统 的 语言 进行 编程 ， 而 它们 之 间 的 交互 用 
工作 流 描述 。 
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水 应 用 网 格 天 然 气 应 用 网 格 


— 1 | 1 
--- | 用 网 格 1- | 
1 o 天 然 气 服务 
水 服务 和 过 滤器 OOOOO! 和 过 滤器 
1 


协作 网 格 C ne > 虚拟 化 网 格 


GIS 网 格 计算 网 格 | 


























传感器 网 格 
核心 网 格 功能 








Cn > stoners > eg 
See Wm OC HW OS 






图 5-14 服务 网 格 之 网 格 的 概念 图 示 


注意 到 ， 多 层 编程 概念 和 基本 的 Shell 编程 非 党 类似， 在 shell 编程 中 ， 常 常 使 用 管道 来 连接 
运行 中 的 程序 。 实 际 上 ， 脚 本 (类 似 于 shell 脚本 ) 是 工作 流 的 一 种 流行 方式 ， 使 用 分 布 式 程序 
结构 代替 了 熟悉 的 UNIX 原 语 。 例 如 ， 采 用 TCP 信道 或 发 布 - 订阅 消息 传递 代替 了 管道 。 在 图 
5-15 中 ,我们 看 到 多 层 体系 结构 是 非常 普遍 的 一 一 不 仅 在 像 工作 流 这 样 的 编程 中 ， 也 在 计算 、 数 
据 库 和 传感器 里 。 


传统 的 编程 工作 流 


覆盖 和 组 成 网 格 的 网 格 





314 
315 图 5-15 层次 化 的 计算 、 数 据 和 编程 抽象 


工作 流 的 概念 最 早 是 工作 流 管理 同盟 "提出 的 ， 这 个 同盟 已 经 存在 了 大 约 20 年 ， 产生 了 
标准 参考 模型 、 文 档 和 大 量 的 工具 及 工作 流 管理 支持 产品 。 然 而 ， 这 个 同盟 主要 是 关于 商业 过 程 
管理 ,常常 涉及 人 类 而 不 是 计算 机 的 工作 流 。 例 如 ，Allen 把 工作 流 定义 为 商业 过 程 的 整体 或 部 
PAM, EXE, 文档、 信息 或 任务 根据 一 套 过 程 规则 "1 从 一 个 参与 者 传 到 另 一 个 。 
这 样 ， 本 章 介绍 的 工作 流 和 工作 流 管理 同盟 所 解决 的 问题 是 非常 不 同 的 。 

我 们 可 以 认为 工作 流 概念 和 系统 的 发 展 是 网 格 和 分 布 式 系统 社区 所 取得 的 主要 成 就 。 
注意 到 ， 服 务 当然 是 同等 重要 的 ,但 是 这 个 想法 的 本 质 来 源 于 商业 系统 。 历 史上 ， 工作 流 
概念 从 使 用 像 Linda’! 、HeNCE'" 1 | Avs!) 、Khoros'"' 1 和 复杂 Shell (Perl) 脚本 这 样 的 
系统 进行 分 布 式 编程 进化 而 来 。Petri 网 也 可 以 被 认为 是 对 工作 流 重要 的 早期 创意 之 一 。 虽 
然 有 几 个 比较 好 的 工作 流 系统 建构 在 Peri 网 之 上 057-181 ， 但 是 今天 最 流行 的 系统 并 不 是 基 
于 Peri 网 。 有 些 重要 的 商业 领域 使 用 与 科学 工作 流 类 似 的 环境 ， 包 括 分 析 实验 数据 的 系 
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统 ， 称 为 实验 室 信 息 系 统 (Laboratory Information Systems) 或 LIMS, 例如 文献 [120，121] 
或 通用 资源 "i! 。 化 学 信息 学 和 商业 智能 领域 有 几 个 类 似 工 作 流 的 系统 ， 包 括 InforSense!?®) 
和 Pipeline Pilot''?*? 。 
5.5.2 工作 流标 准 
和 其 他 Web 服务 的 相关 概念 类 似 ，0ASIS、OMG 和 W3C 也 做 了 大 量 的 工作 ， 这 些 工 作 如 表 
5-9 所 示 ， 它 们 常常 含有 互相 重复 的 目标 。 这 些 工作 主要 在 2000 ~ 2005 年 之 间 完 成 ， 当 时 标准 被 
看 做 实现 Web 服务 梦想 的 基石 ， 完 整 的 服务 特性 规范 可 以 实现 互 操作 性 。 近 来 人 们 意识 到 这 个 
目标 导致 重量 级 的 体系 结构 ， 加 工 不 能 跟 上 这 人 么 多 标准 的 支持 。 今 天 我 们 更 强调 轻 量 级 系统 ， 互 
操作 性 当 需 要 时 可 以 通过 临时 的 变换 得 到 。 标 准 化 工作 的 另 一 个 问题 是 它 大 量 地 超前 系统 的 部 署 ， 
这 样 人 们 会 发 现 遗 忘 了 关键 点 的 不 成 熟 标准 。 这 个 背景 解释 了 表 5-9 中 许多 未 完成 的 标准 活动 。 
表 5-9 工作 流标 准 、 链 接 和 状态 
te 准 链 接 状 态 . 


BPEL Web 服务 的 商业 过 程 运行 语言 http:// docs. oasis- open. org/ wsbpel/2. 0/ wsbpel- 


(OASIS) V2.0 v2.0. html; http://en. wikipedia. org/ wiki/ BPEL 


WS- CDL Web 服务 编排 描述 语言 ,www w3. org TR/ws-edl-10/ 205 年 11 月 ,没有 








2007 年 4 月 


























(W3C) 结束 
WSCI Web 服务 编排 接口 V1.0 (W3C) http://www. w3. org/ TR/wsci/ 2002 年 8 月 ,只 是 备注 
WSCL Web 服务 会 话语 言 (W3C) http://www. w3. org/TR/wscl10/ 2002 年 3 月 ,只 是 备注 




















http://www. ibm. com/developerworks/Web- 
services/library/ws — wsfl2/ 








WSFL Web 服务 流 语 言 被 BPEL 代替 














XLANG 商业 过 程 设计 的 Web 服务 ( 微 
软 ) 


WS- CAFWeb 服务 合成 应 用 框架 ,包括 
WS-CTX,WS-CF 和 WS-TXM 


http://xml. coverpages. org/ XLANG- C- 200106. 2001 年 6 月 ,被 BPEL 
html Re 











http://en. wikipedia. org/wiki/ WS- CAF 没有 结束 

















WS-CTX Web 服务 上 下 文 (OASIS Web http ://docs. oasis- open. org/ ws- caf/ ws- context/ 


2007 年 4 月 









































服务 合成 应 用 框架 TC) vl. 0/OS/wsctx. html 
WS-Coordination Web 服务 协调 (BEA, http ://docs. oasis-open. org/ws-tx/wscoor/2006/ 2009 年 2 月 
IBM, Microsoft at OASIS) 06 
WS- AtomicTransaction Web 服务 原子 http://docs. oasis-open. org/ ws-tx/ wsat/2006/ 2009 年 2 月 
H% (BEA, IBM, Microsoft at OASIS) 06 
WS-BusinessActivity 框架 (BEA, IBM, http ;//does. oasis-open. org/ws-tx/ wsba/2006/ 2009 年 2 月 
Microsoft at OASIS ) 06 
BPMN 商业 过 程 建 模 标 注 (Object http://en. wikipedia. org/ wiki/ BPMN ;http:// 上 
Management Group, OMG ) www. bpmn. org/ 活动 的 
http://www. ebxml. org/ ; http://www. ebxml. 
BPSS z OASIS 
商业 过 程 规范 模式 ) org/specs/ebBPSS. pdf 2001 年 5 月 
http://www. oasis-open. org/commitiees/down- 
BTP 商业 事务 协议 (OASIS) load. php/12449/business _ transaction- btp- 1. 1- 没有 结束 
spec-cd-01. doc 
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成 功 的 活动 都 有 商业 过 程 的 气息 ， 对 于 科学 工作 流 来 说 ，BPELI2 2] 是 最 相关 的 标准 ， 它 
是 基于 早期 推荐 的 WSFL (Web Services Flow Language) 和 XLANG 之 上 。 注 意 到 ， 虽 然 XML 可 
以 很 好 地 表示 数据 结构 ， 但 它 并 不 是 非常 适合 规定 程序 结构 ， 对 于 任何 语言 和 工作 流 控制 中 必 
要 的 循环 和 分 支 ， 它 可 以 表示 但 并 不 是 很 自然 。 用 现代 的 脚本 语言 表示 工作 流 更 加 适合 基于 
XML 的 标准 。 | 
5.5.3 工作 流体 系 结构 和 规范 
和 任何 编程 环境 中 的 语言 和 运行 时 组 件 相 对 应 ， 大 多 数 工 作 流 系统 都 有 两 个 关键 组 件 。 我 
316 们 把 它们 称 为 工作 流 规 范 和 工作 流 运行 引擎 。 它 们 通过 接口 相互 链接 ， 通 过 使 用 诸如 前 面 介 绍 
317 | 的 BPEL 标准 文档 指定 接口 。 
基于 脚本 的 工作 流 系 统 可 以 用 与 Python JavaScript 或 Perl 类 似 的 传统 语言 句法 来 指定 工作 
流 。 虽 然 位 于 非常 底层 ， 我 们 也 可 以 直接 地 规定 驱动 执行 引 敬 的 (XML) 接口 文档 。 然 而 ， 大 
多 数 工 作 流 系统 使 用 如 图 5-16 所 示 的 图 形 界面 。 他 们 捕捉 的 场景 如 下 面 的 例子 所 示 。 
例 5. 10 Pan-STARRS 工作 流 
图 5-16 中 的 每 一 步 都 是 一 个 “很 大 的 ”活动 〈 即 服务 ) ， 说 明 工 作 流 是 一 个 编程 系统 ， 它 
与 我 们 熟悉 的 语言 (如 C++) 的 粒度 非常 不 同 。 注 意 到 ,脚本 语言 常常 用 来 规定 粗 粒度 的 操 
作 ， 这 “解释 ”了 为 什么 脚本 语言 是 指定 工作 流 的 一 种 流行 方式 。 然 而 ,工作 流 的 关键 特性 涉 
及 “ 几 个 ” 步 又， 而 一 个 服务 的 完整 程序 通常 包括 数 千 到 百 万 行 代码 。 这 个 现象 支持 可 视 接 口 
的 使 用 ， 这 样 功能 特性 可 以 直接 映射 到 编程 模型 。 微 软 的 Trident RAP HR yh eH 
KF RW Taverna" BRKT MEO, 


| Determine affine slice cold) 
DB for CSV batch | 
Sanity check of es 
network files, mea heed For each CSV ES 1 y ERA load CSV 
aren EEJ file in batch sch Ba j ERA into table | 
checksum 


Detect load fault. Launch recovery operations. Notify admin. 






Perform CSV 
file/table 
validation 





Perform 
loadDB/batch 
validation 






For each 
partition in 


Stich out Union all over slice Switch j Sli 1 
| R s aie & load DBs into temp i am i lic Post partition £ T letona & Post slice load 
suce parnnon filter on partition a oon load validation} | °°a Cu a ons validation 
to temp barad partition updates 





slice coldDB 





Detect merge fonli Tanach sacra | Notify admin. 


图 5-16 从 Pan-STARRS 天 文 数据 处 理 领域 中 来 的 两 个 典型 (负载 和 融合 ) 工作 流 
注 ， 由 Barga 等 人 提供 [129] 。 


图 5-17 显示 了 由 Taverna RAO 指定 的 典型 工作 流 。 有 一 些 指定 组 件 〔 活 动 、 服 务 ) 的 

菜单 ， 并 且 它 们 在 合成 窗口 中 用 “盒子 ”表示 。 用 户 通 过 “盒子 ”的 链接 指 
[318] 定 工作 流 逮 辑 。 每 一 个 盒子 都 有 大 量 的 用 户 可 以 指定 和 观察 的 元 数据 。 系 统 允 许 指定 不 重要 
的 控制 结构 ， 例 如 ， eed EN ee, 注意 到 ， 每 个 盒子 可 以 是 串 行 或 并 

行 的 组 件 。 E 
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hsapiens_gene_ensembl __ 











oS 


getHSsequence : 





oo 











图 5-17 在 Taverna 系统 中 的 工作 流 
注 ; 由 C. Goble 提供 [132] 2008, 


在 LEAD IC 的 龙卷风 跟踪 工作 流 580 中 可 以 体会 到 以 上 操作 的 必要 ， 那 里 的 工作 流 包 括 链 
接 到 传统 (MPI) 并 行 天 气 模拟 的 数据 处 理 服务 。 工 作 流 中 表示 的 并 发 性 常常 称 为 “功能 性 ” 
并 行 ， 与“ 数据” 并行 有 所 不 同 。 典 型 情况 下 ， 功 能 性 并 行 〈 对 应 于 应 用 中 的 不 同 服务 ) 是 绝 
对 的 ， 由 问题 的 规模 和 实质 所 决定 。 另 外 ， 数 据 并 行 是 通过 把 大 规模 数据 集 分 解 为 多 个 部 分 ， 数 
据 并 行 度 由 可 用 的 核心 数量 决定 ; 不 同 部 分 对 应 于 实现 服务 所 使 用 的 并 行 计 算 技 术 (MPI、 线 
#2. MapReduce) , 

5.5.4 工作 流 运 行 引 擎 

有 许多 不 同 的 工作 流 系 统 。 工 作 流 并 没有 很 强 的 性 能 约束 。 在 前 面 章节 中 ,我 们 提 到 典 
型 情况 下 节点 的 大 量 运行 时 间 使 得 开销 比 起 MPI 来 并 不 太 重 要 。 同 一 特征 常常 使 得 工作 流 可 
以 通过 分 布 式 方式 来 运行 一 一 长 通信 跳 数 带 来 的 网 络 延 时 通常 并 不 重要 。 文 献 [139] 对 如 下 领 
域 中 所 用 到 的 工作 流 进 行 了 分 类 、 从 气象 学 到 海洋 建 模 ， 从 生物 信息 学 到 生物 医学 工作 流 ， 
从 天 文学 到 神经 科学 。 这 些 分 类 是 通过 比较 它们 的 大 小 、 资 源 使 用 、 图 模式 、 数 据 模式 和 使 
用 场景 。BPEL 指定 了 工作 流 的 控制 而 不 是 数据 流 。 当 然 ， 控 制 结构 意味 着 对 于 给 定 节点 集 的 
数据 流 结构 。 

图 5-18 显示 了 图 5-16 的 天 文学 工作 流 的 流水 线 。 更 一 般 的 工作 流 结构 是 有 向 无 环 图 ， 它 是 
顶点 和 有 向 边 的 集合 ， 每 一 条 边 从 一 个 节点 连 到 另 一 个 ， 这 样 里 面 没 有 环 。 也 就 是 说 ， 从 某 一 个 
顶点 V 开始 ， 沿 着 一 系列 的 边 ， 最 终 不 可 能 再 回 到 顶点 V。 除 了 复杂 的 专业 工作 流 系统 外 ， 可 能 
使 用 传统 语言 和 工具 集 的 脚本 是 构建 工作 流 的 主要 技术 。 通 常 这 可 以 使 用 任何 分 布 式 计算 ( 互 
联网 ) 支持 的 环境 以 非 正 式 的 方式 实现 ; PHP 肯定 是 构建 混搭 系统 的 最 流行 环境 ， 但 是 Python 
和 JavaScript 用 起 来 也 很 好 。 图 5-18 示例 了 一 个 简单 的 循环 图 。Condor"”! 中 使 用 的 Dagnan 是 
一 个 复杂 的 有 向 无 环 图 处 理 引 擎 。 这 导致 了 像 Pegasus" 的 一 类 工作 流 系 统 ， 它 们 的 目的 在 于 调 
度 基于 有 向 无 环 图 工作 流 的 节点 。Karajan"“ 和 Ant""%1 也 可 以 很 容易 地 表示 有 向 无 环 图 。 注 意 
到 ， 最 复杂 的 工作 流 系统 支持 层次 化 规范 ， 即 工作 流 的 节点 可 以 是 服务 或 服务 集 ( 子 工作 流 )。 
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这 和 网 格 的 网 格 概念 一 致 。 


图 5-18 包括 说 明 流水 线 和 循环 的 子 图 的 工作 流 图 


在 活跃 的 研究 社区 里 需要 工作 流 引 人 擎 解决 的 问题 很 好 理解 ， 但 是 不 好 用 集成 的 方式 来 描 
述 " "中 。 显 然 ， 本 书 中 对 于 分 布 式 系统 、 云 计算 和 网 格 讨 论 的 许多 甚至 可 能 所 有 的 运行 问题 
都 隐 含 地 或 明显 地 与 工作 流 运行 引擎 相关 。 图 5-19 规定 了 要 素 服务 或 活动 之 间 的 交互 。 一 个 重 
要 的 技术 选择 是 在 图 的 节点 之 间 传 送信 息 的 机 制 。 最 简单 的 选择 是 每 个 节点 从 磁盘 读 取 数据 并 
写 回 磁盘 ， 这 人 允许 人 们 把 每 个 节点 的 运行 看 做 一 个 独立 的 作业 ， 当 它 所 有 需要 的 输入 数据 都 在 
磁盘 上 的 时 候 作业 就 被 激活 了 。 

这 似乎 不 是 很 有 效 ， 但 是 我 们 没有 在 设计 MPI 和 并 行 计算 技术 的 区 域 操作 。 在 那里 低 延 时 
( 微 秒 ) 常常 是 个 基本 要 素 ， 但 是 在 工作 流 里 ， 我 们 有 不 同 的 通信 模式 一 长 运行 时 间 的 作业 输入 
和 输出 的 大 量 数据 集 。 读 / 写 付出 的 代价 常常 是 可 以 接受 的 ， 并 允许 更 简单 的 容错 实现 。 当 然 ， 
我 们 可 以 使 用 5. 2 节 里 面 介 绍 的 消息 传递 系统 来 管理 工作 流 中 的 数据 传递 ， 以 及 在 极端 情况 下 的 
简单 模型 ， 即 所 有 的 通信 都 由 一 个 单独 的 中 央 “ 控 制 节 点 ”处 理 。 

很 显然 ， 后 一 种 情况 会 导致 不 好 的 性 能 ， 它 不 会 随 着 工作 流 规模 的 增加 而 正确 地 扩展 。 例 如 
CORBA 这 样 的 分 布 式 对 象 技术 也 可 以 用 在 发 现 中 间 件 "中 通信 。 实 际 上 ， 在 工作 流 环境 中 常 
常 有 两 种 通信 系统 ， 分 别 对 应 “控制 ”和 “数据 "。 显 然 ， 控 制 通信 通常 会 使 用 小 的 报 文 ， 需 求 
也 和 数据 网 络 截然 不 同 。 在 这 个 方面 ， 我 们 应 该 提 到 “代理 模型 "*"， 它 常常 在 网 格 体系 结构 和 工 
作 流 中 使 用 。 

假定 图 5-18 中 一 个 节点 对 应 于 大 规模 模拟 作业 的 运行 ， 例 如 化 学 代码 Amber 或 Gaussian。 那 
么 我 们 可 以 把 这 个 节点 认为 是 Amber 代码 ， 链 路 直接 对 应 于 这 个 代码 使 用 的 数据 。 然 而 这 并 不 
是 一 般 情 况 。 一 般 情 况 下 ， 节 点 是 一 个 包含 元 数据 和 机 制 的 服务 ， 能 够 激活 在 〈 远 程 ) 机 器 上 
的 Amber， 并 且 能 决定 什么 时 候 结 束 。 在 代理 节点 之 间 流 动 的 信息 基本 上 都 是 控制 信息 。 这 个 代 
理 模 型 也 可 以 被 认为 是 代理 框架 Ps] 。 

5.5.5 脚本 工作 流 系 统 Swift 

Swift 是 一 个 并 行 脚本 语言 ， 其 中 应 用 程序 可 以 表示 为 函数 ， 变 量 可 以 映射 为 文件 。 使 用 结 
构 和 数组 抽象 来 并 行 地 处 理 多 个 文件 。Swift 有 一 个 基于 数据 流 的 功能 执行 模型 ， 其 中 所 有 的 语 
句 都 是 隐 式 并 行 的 。 并 行 的 循环 结构 显 式 地 指定 了 大 规模 并 发 处 理 。 图 5-19 给 出 了 Swift 工作 流 
系统 的 体系 结构 。 

例 5.11 Swift 中 的 生物 信息 学 工作 流 

Swift 命令 是 一 个 Java 应 用 程序 ， 它 运行 在 用 户 可 以 访问 的 任何 一 台 计 算 机 上 (例如 工作 站 
或 者 登录 服务 器 ) 。 它 编译 和 运行 Swift 脚本 ， 协 调 远程 数据 传递 ， 并 且 在 本 地 和 分 布 式 并 行 资源 
上 执行 应 用 。 图 5-20 表明 了 Swift 在 生物 信息 学 中 的 应 用 。 这 个 问题 对 于 MapReduce 非常 完美 。 
基于 Swift 的 隐 式 数据 流 模 型 ， 当 数组 splitseqs 的 成 员 变 得 可 用 时 ，foreach 循环 会 自动 开始 。 
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提交 主机 


(Laptop, login host,...) So 
Open science grid 


Swift 是 带 有 集群 和 网 格 客户 端 代码 的 自 包含 应 用 Dowload 、untar 和 run 





图 5-19 Swift 工作 流 系统 体系 结构 
注 ; 出 自 www. ci. uchicago, edu/swift/I138] 。 






y 并 行 执行 10 个 
MET ST 来 测试 
工作 站 的 小 样 


”并行 执行 100 个 
,BLAST 来 搜索 集 
aad taa 群 上 的 未 知 蛋 白 

i 质数 据 库 


图 5-20 Swift 的 生物 信息 学 应 用 
i=; 出 自 Wikipedia, http://en. wikipedia. org/wiki/ Many-task_computing[154] 。 
Swift 系统 通过 BLAST 搜索 程序 处 理 一 套 未 知 功能 的 蛋白 质 序列 ， 在 标准 数据 库 “NR 中 与 
每 个 已 知 功能 的 蛋白 质 序列 进行 匹配 。 例 如 ， 给 定 100 个 处 理 器 ， 脚 本 可 以 并 行 地 执行 100 个 
BLAST 调用 来 快速 地 搜索 NR 数据 库 。 它 的 目的 是 搜索 确定 未 知 蛋 白质 本 质 的 线索 。 a 
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5.6 参考 文献 与 习题 


关于 关键 的 WS-" Web 服务 技术 ， 我 们 推荐 文献 [ 164] 中 给 出 的 这 本 书 。Alonso 的 著作 "是 
许多 详细 地 阐述 服务 和 SOA 的 著作 之 一 。Fox 和 Gannon05 吧 详细 地 综述 了 在 许多 网 格 应 用 中 的 
服务 。 文 献 [29，165] 讨论 了 区 分 Web 和 网 格 服务 的 问题 。 文 献 [8] 或 原始 论文 [2] 介 绍 了 重要 
的 REST 方法 。 和 本 书 中 的 其 他 章 一 样 ， 维 基 百 科 常 常 是 一 个 重要 的 信息 源 ， 它 详细 介绍 了 5.2 
节 中 描述 的 消息 传递 。 

消息 传递 尤其 适合 那 一 节 中 讨论 的 质量 开源 系统 。 文 献 [43 ，44] 是 关于 门户 和 网 关 的 一 些 
很 好 的 论文 。 文 献 [166] 很 好 地 介绍 了 语义 Web; 文献 [167] 介 绍 了 语义 网 格 。iRods'” 是 一 个 重 
要 的 网 格 数据 系统 ， 工 业界 对 于 该 领域 的 发 展 有 非常 重要 的 贡献 ， 谷 歌 和 微软 出 了 很 多 研讨 会 
论文 : 例如 MapReduce[98] 、Dryad[99] 、 谷 歌 文 件 系统 [100] 和 Fusion Tables[ 168 ] 。 几 篇 综述 
[15，107，108，110] 很 好 地 讨论 了 工作 流 。 

Kepler!" -1% 4] Triana -项目 是 基于 数据 流 技 术 的 重要 工作 流 系统 ; Kepler 仍 在 活路 地 
开发 着 。Pegasus""“1 是 一 个 活跃 的 系统 ， 它 实现 了 工作 流 的 调度 风格 。 来 自 myGrid WA 的 
Taverna ”在 生物 信息 学 社区 非常 流行 ，UK OMII ”做 了 大 量 的 努力 来 使 得 系统 变 得 强壮 。 这 
个 项 目的 一 个 创新 性 扩展 是 myExperiment 科学 社会 网 络 站 点 "“] ， 它 使 得 工作 流 可 以 共享 。 工 作 
TAKE BERS Ae. 

印第安 纳 大 学 的 HPSearch 项 目 '%9" 5 "5 可 以 用 JavaScript 有 效 地 支持 工作 流 ， 它 致力 于 控制 
消息 传递 系统 NaradaBrokering™ 来 控制 流 式 工作 流 〈 即 在 工作 流 的 节点 之 间 流 动 的 数据 ， 而 不 
是 写 人 磁盘 的 数据 )。 还 有 一 些 其 他 的 工作 流 系统 用 于 流 数据 "” 。Switt" :是 一 个 新 的 脚本 环 
境 ， 支 持 许 多 任务 编程 模型 ， 其 中 有 无 数 的 作业 需要 运行 1 。 

有 许多 工作 流 方法 ， 在 一 次 性 的 原型 环境 下 非常 成 功 。 然 而 经 验 显 示 大 部 分 离开 了 开发 组 
在 产品 使 用 中 并 不 足够 健壮 。 这 一 现象 激发 了 微软 把 他 们 的 Trident 工作 流 环境 "1 为 科学 而 

322 开放 源 代码 。Trident 构建 在 商业 质量 的 Windows 工作 流 基 础 上 。 注 意 到 ， 大 多 数 情况 下 ， 我 们 在 

323 |“ 代 理 ” 方 式 下 使 用 Trident， 运 行 在 Windows 下 的 工作 流 代理 控制 远程 的 组 件 ， 它 们 大 多 运行 在 
Linux HLE, 一些 工 作 流 系统 构建 在 数据 流 概 念 上 ， 这 是 最 早期 的 模型 ， 也 是 
和 代理 概念 直接 相对 的 。 | 

今天 的 云 混搭 系统 一 般 是 数据 流 系统 ， 它 们 采用 JavaScript 或 PHP 语言 编写 的 脚本 来 交互 。 
例如 ， 到 2010 年 9 A Aik, ProgrammableWeb. com 网 站 拥有 超过 2 000 个 API 和 500 个 混搭 系 
ge! | 商业 的 混搭 系统 包括 Yahoo! Pipes ( http://pipes. yahoo. com/pipes/)、 微 软 Popfly 
(http ;//en. wikipedia. org/ wiki/ Microsoft_Popfly) 和 IBM 的 BPEL Web 2. 0 增强 的 sMasht0se 工作 流 
环境 。 有 人 不 同意 MapReduce 也 是 一 个 工作 流 环境 (http://yahoo. github. com/oozie/ )， 因 为 它 和 
工作 流 可 以 解决 类 似 的 问题 。 其 他 的 工作 流 方 法 扩展 了 来 自 于 分 布 式 对 象 范例 的 “远程 方法 调 
用 ”模型 。 这 个 模型 是 公共 组 件 体系 结构 的 基础 ""* 。 
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习题 


5.1 讨论 WS- “和 REST 的 Web 服务 的 优点 和 缺点 。 比 较 它们 的 体系 结构 原理 。 哪 一 个 机 制 更 加 适合 于 和 
亚 马 避 简单 存储 服务 (S3) 进行 通信 ? 为 什么 ? 

5.2 ”讨论 无 状态 Web 服务 的 优点 和 缺点 。 我 们 应 该 怎样 保持 REST 和 标准 Web 服务 中 的 状态 ? 

5.3 ”这 个 作业 需要 你 在 一 个 应 用 中 组 合 排队 和 发 布 -订阅 范例 。A 组 织 和 了 组 织 是 使 用 排队 来 完成 BOB X 
易 的 两 家 公司 。 每 一 个 事务 都 保存 下 来 (在 转发 之 前 ) ， 并 且 伴 有 一 个 128 位 的 UUID 标识 符 。 在 组 织 
内 部 ， 使 用 发 布 - 订阅 方式 来 发 送 消息 。 在 每 一 个 组 织 内 生成 5 个 订阅 者 ( 销售、 市场、 审计 、 打 包 
和 财务 ) ;由 于 已 经 存在 消息 的 副本 ， 所 以 这 些 订阅 者 不 需要 再 次 保留 消息 日 志 。 如 果 用 Java 来 完成 
本 作业 ， 那 么 必须 使 用 Java 消息 服务 。 

5.4 ”开发 一 个 应 用 ， 在 应 用 不 同 语言 开发 的 实体 之 间 使 用 发 布 - 订阅 来 进行 通信 。 发 布 者 用 C ++ 编写， 消 
费 者 用 Java 实现 。 彼 此 之 间 通 信 的 分 布 式 组 件 采用 AMQP 线 格式 。 

5.5 ”把 左边 的 术语 和 缩写 与 右边 最 合适 的 描述 匹配 起 来 。 








1.___S-OGSA (a) 一 套 规范 ， 用 来 定义 关于 Web 服务 的 信息 描述 、 发 布 和 发 现 

2. __ REST (b) 为 语义 Web 开发 的 第 一 种 语言 ， 使 用 XML 表示 Web 上 资源 的 信息 
3. ___ UDDI (c) 用 来 描述 REST Web 服务 的 XML 词汇 表 

4 ___ MCS (d) 一 族 OASIS 发 布 的 规范 ， 提 供 了 一 套 操 作 ， 可 以 让 Web 服务 变 得 有 状态 
5. ____ WSDL (e) Globus 联盟 开发 的 目录 服务 ， 提 供 了 元 数据 的 层次 化 组 织 

6. _ RDF (f) 合成 的 Web 2.0 应用， 可 以 把 基于 Web 应 用 的 现 有 功能 组 合 起 来 
7. ”WADL (g) 基于 HTTP 的 分 布 式 超 媒体 系统 软件 体系 结构 

8. WSRF (h) 扩展 了 RDF 模式 的 表示 型 本 体 语言 

9. 混搭 系统 (i) 基于 语义 网 格 的 参考 体系 结构 ， 扩 展 了 开放 网 格 服务 体系 结构 

10. OWL-S (j) 基于 XML 的 语言 来 描述 Web 服务 支持 的 操作 集 和 消息 集 











5.6 把 习题 5.3 和 5. 4 两 个 作业 组 合 起 来 ，A 组 织 用 Java 实现 ，B 组 织 用 C ++ 实现 。 他 们 之 间 的 通信 使 用 
AMQP 作为 可 以 互 操作 的 线 格式 。 

5.7 描述 在 网 格 体系 结构 中 企业 总 线 的 可 能 应 用 。 

5.8 在 云 中 运行 NaradaBrokering 或 表 5-8 中 的 等 效 系统 。 使 用 它 来 连接 两 个 Android 智能 手机 ， 交 换 消 息 和 
用 手机 所 拍摄 的 照片 。 

5.9 在 网 站 http://www. collabogce. org/ogce/index. php/Portal_download 使 用 指令 集 安装 OGCE 工具 集 。 然 后 
从 网 站 http://www. collab- ogce. org/ogce/index. php/ Tutorials#Screen_Capture_Demos 的 项 目 中 选择 一 个 
或 多 个 安装 。 

5. 10 ”比较 科学 网 关中 的 谷歌 应 用 引擎 、Drupal、HUBZero 和 0GCE 方法 。 讨 论 你 所 熟悉 的 门户 的 上 下 文 。 

5.11 服务 注册 表 包 含 哪 三 个 主要 的 信息 目录 ? 在 UDDI 中 哪 -一 个 实体 映射 这 些 信 息 目 录 ? 

5.12 ”概括 实际 生活 中 并 行 或 分 布 式 作 业 运 行 环 境 的 主要 组 件 。 你 可 以 选择 任何 示例 平台 ， 如 第 2 章 的 集 

群 、 第 4 章 的 云 、 第 7 章 的 网 格 和 第 8 章 的 P2P 网 络 。 

5. 13 ”描述 在 作业 运行 环境 中 分 布 式 文件 系统 的 角色 ， 比 如 在 大 型 云 系统 中 的 MapReduce, 

5.14 ”资源 描述 框架 (RDF) 和 OWL Web 本 体 语言 是 两 个 语义 Web 技术 。 请 描述 它们 之 间 的 关系 。 

5.15 为 什么 网 格 在 学 术 应 用 中 很 流行 ， 而 云 计算 统治 了 商业 的 应 用 ? 请 给 出 示例 来 比较 它们 的 优点 和 

缺点 。 

从 文献 [138，154] 了解 更 多 的 细节 。 在 一 个 可 用 的 云 平台 上 实现 图 5-20 所 示 的 Swift 应 用 。 

使 用 Swift 来 实现 MapReduce 描述 的 单词 计数 问题 (6. 2. 2 节 将 详细 介绍 MapReduce) 。 

使 用 Taverna 来 构建 链接 一 个 模块 的 工作 流 ， 以 从 Twitter, Flickr 或 Facebook 中 提取 网 格 和 云 (或 者 

你 喜欢 的 主题 ) 的 评论 。 可 以 在 www. programmableweb. com 找到 社会 网 络 的 API, 


Wmv 
oO 
on 个 
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本 章 将 论述 真实 云 平台 下 的 编程 ， 其 中 将 介绍 和 评价 MapReduce, BigTable, Twister, Dryad, 
DryadLINQ, Hadoop, Sawzall 和 Pig Latin。 我 们 用 具体 的 实例 来 讲解 云 中 的 实现 和 应 用 需求 。 我 
们 回顾 了 核心 服务 模型 和 访问 技术 。 通 过 应 用 实例 讲解 了 由 谷歌 应 用 引擎 (GAE), EHH Web 
服务 (AWS) 和 微软 Windows Azure 提供 的 云 服 务 。 特 别 地 ， 我 们 演示 了 怎样 对 CAE、AWS 
EC2、S3 和 了 BS 编程。 我 们 综述 了 用 于 云 计算 的 开源 Eucalyptus, Nimbus 和 OpenNebula, 以 及 
Manjrasoft 公司 的 Aneka 系统 。 


6.1 云 和 网 格 平台 的 特性 


本 节 总 结 了 真实 云 和 网 格 平台 的 重要 特性 。 在 4 个 表格 中 ， 我 们 涵盖 了 功能 、 传 统 特性 、 数 
据 特性 以 及 程序 员 和 运行 时 系统 使 用 的 特性 。 表 格 中 的 条 目 可 以 给 那些 想 要 在 云 上 进行 高 效 编 
程 的 人 提供 参考 资料 。 为 了 更 好 地 学 习 本 章 ， 读 者 需要 熟悉 和 理解 第 5 章 中 介绍 的 SOA 和 Web 
服务 的 相关 语言 和 软件 工具 。 
6.1.1 云 的 功能 和 平台 的 特性 

商用 云 需要 全 面 的 功能 ， 见 表格 6-1 的 总 结 。 这 些 功能 提供 高 性 价 比 的 效用 计算 ， 并 可 以 
满足 计算 能 力 上 的 弹性 伸缩 。 除 了 这 个 关键 功能 外 ， 商 用 云 还 一 直 在 提供 越 来 越 多 的 附加 功 
能 ， 通常 被 称 为 “平台 即 服 务 ” (Platform as a Service，PaaS)。 对 于 Azure 来 说 ， 现 有 的 平台 
特性 包括 : Azure Table, BAX, blob, SQL 数据 库 ， 以 及 Web 和 工作 机 角色 。 亚 马 避 常常 被 看 
做 “ 仅 ” 提 供 基 础 设施 即 服务 (IaaS) ， 但 是 它 在 不 断 地 增加 平台 特性 ， 包 括 SimpleDB (类 似 
于 Azure Table) 、 队 列 、 通 知 、 监 视 、 内 容 发 布 网 络 、 关 系数 据 库 和 MapReduce (Hadoop), 4 
歌 现在 不 提供 更 广泛 的 云 服务 ， 但 是 谷歌 应 用 引 警 (GAE) 提供 了 一 个 功能 强大 的 Web 应 用 
开发 环境 。 

表 6-2 列 出 了 一 些 底层 的 基础 设施 特征 。 表 6-3 列 出 了 在 云 环 境 中 需要 支持 的 用 于 并 行 和 分 
布 式 系统 的 传统 编程 环境 。 它 们 可 以 用 作 系 统 〈 云 平台 ) 或 用 户 环境 的 一 部 分 。 表 6-4 给 出 了 在 
云 和 一 些 网 格 中 强调 的 特性 。 注 意 ， 表 6-4 中 的 一 些 特性 是 最 近 才 作为 主要 方法 提供 的 。 特 别 
地 ， 这 些 特性 并 不 在 学 术 云 基础 设施 中 提供 ， 比 如 Eucalyptus、Nimbus、 OpenNebula 或 Sector/ 
Sphere (虽然 Sector 是 表 6-4 中 归 类 的 一 个 数据 并 行文 件 系 统 (Data Parallel File System, 
DPFS) ) 6.5 节 将 介绍 这 些 新 兴 的 云 编 程 环境 。 
6. 1.2 网 格 和 云 的 公共 传统 特性 


本 节 我 们 集中 关注 当今 计算 网 格 和 云 中 有 关 工 作 流 、 数 据 传输 、 安 全 和 可 用 性 方面 的 公共 
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表 6-1 重要 云 平台 功能 
功 能 H 述 
云 环境 由 一 些 物理 或 者 虚拟 平台 构成 。 虚 拟 平台 有 一 些 特别 的 功能 来 为 不 同 的 应 用 


物理 /虚拟 计算 平台 和 用 户 提供 独立 环境 
对 于 大 规模 数据 集 ， 云 数据 存储 服务 提供 大 容量 磁盘 及 允许 用 户 上 传 和 下 载 数 据 的 


六 规模 数据 存储 服务 ， 分 | 服务 接口 。 分 布 式 文件 系统 可 以 提供 大 规模 数据 存储 服务 ， 并 可 提供 类 似 于 本 地 文件 

















布 式 文件 系统 A aT 
一 些 分 布 式 文件 系统 足以 提供 应 用 开发 者 以 更 加 语义 化 的 方式 来 保存 数据 的 底层 存 

大 规模 数据 库存 储 服务 。 | 入 服务。 正如 在 传统 软件 栈 中 的 DBMS， 云 需要 大 规模 数据 库存 储 服务 
l 云 基础 设施 甚至 为 一 个 很 简单 的 应 用 提供 数 以 千 计 的 计算 节点 。 程 序 员 需 要 利用 这 
“oe ENA 些 机 器 的 能 力 ， 而 不 需要 考虑 繁杂 的 基础 设施 管理 问题 ， 比 如 处 理 网 络 故 障 或 伸 编 运 


行 中 的 代码 来 使 用 平台 提供 的 所 有 计算 设施 





工作 流 和 数据 查询 语言 编程 模型 提供 了 云 基础 设施 的 抽象 。 类 似 于 数据 库 系 统 中 使 用 的 SQL 语言 ， 在 云 计 











支持 算 中 ， 提 供 商 开发 了 一 些 工 作 流 语言 和 数据 查询 语言 来 支持 更 好 的 应 用 逻辑 
云 应 用 需要 Web 接口 或 者 特殊 的 API; J2EE、PHP、ASP 或 者 Rails。 在 用 户 使 用 
编程 接口 和 服务 部 署 Web 浏览 器 获取 所 提供 的 功能 时 ， 云 应 用 可 以 使 用 Ajax 技术 来 提高 用 户 体验 。 每 个 


云 提供 商都 开放 了 其 编程 接口 来 访问 存储 在 大 规模 存储 设备 上 的 数据 


对 于 用 户 及 其 应 用 而 言 ， 运 行 时 支持 是 透明 的 。 这 些 支 持 包括 分 布 式 监视 服务 、 分 
布 式 任务 调度 ， 以 及 分 布 式 锁定 和 其 他 服务 。 这 对 于 运行 云 应 用 是 至 关 重 要 的 


重要 的 支持 服务 包括 数据 和 计算 服务 ， 例 如 ， 云 提供 了 丰富 的 数据 服务 和 有 用 的 数 
据 并 行 执 行 模型 ， 如 MapReduce 











运行 时 支持 





支持 服务 


6.1.2.1 工作 流 

如 5.5 节 所 介绍 的 ， 工 作 流 已 经 在 美国 和 欧洲 产生 了 很 多 项 目 。Pegasus、Taverna 和 Kepler 
很 受 欢 迎 ， 并 得 到 了 广泛 的 认可 。 也 有 一 些 商 用 系统 ， 如 Pipeline Pilot, AVS (dated) 和 LIMS 环 
境 。 最 近 的 表 项 是 来 自 微软 研究 院 的 Trident!” ， 它 建立 在 Windows 工作 流 基 础 之 上 。 如 果 Trident 
运行 在 Azure 或 只 是 其 他 旧版 本 Windows 机 器 上 ， 它 将 在 外 部 (Linux) 环境 上 运行 工作 流 代 理 
服务 器 。 在 真实 的 应 用 中 工作 流 按 需 连 接 多 个 云 和 非 云 服务 。 

表 6-2 ”基础 设施 云 特征 

Hit: 包括 经 济 学 ， 显 然 是 商业 云 的 一 个 活跃 领域 
应 用 : 预先 配置 的 虚拟 机 镜像 ， 支 持 多 方面 任务 ， 如 消息 传递 接口 (Message- Passing Interface, MPI) 集群 
认证 和 授权 : 云 对 于 多 个 系统 只 需要 单个 登录 
数据 传输 :在 网 格 和 云 之 间或 内 部 的 作业 组 件 之 间 进 行 数据 传输 ; 开发 定制 的 存储 模式 ， 比 如 在 BitTorent 上 
操作 系统 ; Apple, Android, Linux, Windows 
程序 库 : 存储 镜像 和 其 他 程序 资料 
注册 表 : 系统 的 信息 资源 《元 数据 管理 的 系统 版 本 ) 
RS, 除了 基本 认证 和 授权 外 的 其 他 安全 特性 ; 包括 更 高 层 的 概念 ， 如 可 信 
调度 : Condor, Platform, Oracle Grid Engine 等 的 基本 成 分 ; 云 隐 式 地 含有 它 ， 例 如 Azure Worker Role 
群 组 调度 :以 可 扩展 的 方式 分 配 多 个 〈 数 据 并 行 ) 任务 ; 注意， 这 是 MapReduce 自动 提供 的 
软件 即 服务 (SaaS): 这 个 概念 是 在 云 和 网 格 之 间 共 享 的 ， 并 且 不 用 特殊 处 理 就 可 以 被 支持 ; 注意 ， 服 务 和 面向 服务 
的 体系 结构 的 使 用 是 非常 成 功 的 ， 在 云 中 的 应 用 和 之 前 的 分 布 式 系统 非常 类 似 


虚拟 化 : 云 的 基本 的 支持 “弹性 ”的 特性 ， 这 被 伯克利 强调 为 定义 (公有) 云 的 特征 ; 包括 虚拟 网 络 ， 如 佛罗里达 大 
学 的 ViNe 
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表 6-3 集群、 网 格 和 并 行 计算 环境 中 的 传统 特性 
集群 管理 ; 提供 一 系列 工具 来 简化 集群 处 理 的 ROCKS 和 程序 包 
数据 管理 : 包括 元 数据 支持 ， 例 如 RDF Triple Fë (RHA Web， 并 能 建 于 MapReduce 上 ， 比 如 SHARD); 包括 
T SQL 和 NOSQL 


网 格 编程 环境 : 从 开放 网 格 服务 体系 结构 (Open Grid Services Architecture, OGSA) 中 的 链接 服务 到 GridRPC (Ninf, 
GridSolve) 和 SAGA， 各 自 不 同 

Open MP/ 线 程 : 可 包括 并 行 编译 器 ， 比 如 Cik; 大 体 上 共享 内 存 技 术 。 甚 至 事务 内 存 和 细 粒 度数 据 流 也 在 这 里 

门户 : 可 被 称 为 〈 科 学 ) 网关。 技术 上 还 有 一 个 有 趣 的 变化 ， 从 portlets 到 HUBzero， 到 现在 的 云 上 : Azure Web Roles 
和 GAE 


可 扩展 并 行 计算 环境 : MPI 和 相关 高 层 概 念 ， 包 括 不 走运 的 HP Fortran, PGAS (不 成 功 但 也 没 丢脸 ) 、HPCS 语言 (X- 
10. Fortress. Chapel). patterns (包括 伯克利 dwarves) 和 函数 式 语 言 ， 例 如 分 布 式 存储 的 了 # 
































虚拟 组 织 ， 从 专门 的 网 格 解决 方案 到 流行 的 Web 2.0 功能 ， 比 如 Facebook 
工作 流 ; 支持 工作 流 来 链接 网 格 和 云 之 间或 者 内 部 的 作业 组 件 ， 与 LIMS 实验 室 信息 管理 系统 有 关 











表 6-4 云 和 (AM) 网 格 支 持 的 平台 特性 
Blob: 基本 存储 概念 ， 典 型 代表 有 Azure Blob 和 亚马逊 的 S3 

















数据 并 行文 件 系统 (DPFS) : 支持 文件 系统 ， 例 如 谷歌 (MapReduce) 、HDFS (Hadoop) 和 Cosmos (Dryad), 4A H 
数据 处 理 而 优化 过 的 计算 -数据 密切 度 

容错 性 : 如 文献 [1] 中 所 评述 的 ， 这 个 特性 在 网 格 中 被 大 量 地 忽略 了 ， 但 在 云 中 是 一 个 主要 的 特性 

MapReduce: 支持 MapReduce 编程 模型 ， 包 括 Linux 上 的 Hadoop, Windows HPCS 上 的 Dryad， 以 及 Windows 和 Linux 
上 的 Twister， 包 括 新 的 相关 语言 ， 例 如 Sawzall, Pregel, Pig Latin 和 LINQ 

监测 : 很 多 网 格 解决 方案 ,例如 Inca， 可 以 基于 发 布 -订阅 

通知 发布 -订阅 系统 的 基本 功能 

编程 模型 : 和 其 他 平台 特性 一 起 建立 的 云 编程 模型 ， 和 熟悉 的 Web 和 网 格 模型 相关 

BASU: 可 能 基于 发 布 -订阅 的 排队 系统 


可 扩展 的 同步 ， Apache Zookeeper 或 Google Chubby。 支 持 分 布 式 锁 ， 由 BigTable 使 用 。 不 清楚 是 否 (有 效 地 ) 使 用 于 
Azure Table 或 Amazon SimpleDB 中 


SQL: 关系 数据 库 

Table: 支持 Apache Hbase 或 Amazon SimpleDB/Azure Table 上 的 表 数 据 结构 模型 。 是 NOSQL 的 一 部 分 

Web 角色 : 用 在 Azure 中 用 来 向 用 户 描述 重要 链 路 ， 并 能 被 除了 门户 框架 以 外 的 架构 所 支持 。 这 是 GAR 的 主要 目的 
工作 机 角色 : 这 个 概念 已 被 亚马逊 和 网 格 隐 式 使 用 ， 但 第 一 次 被 Azure 作为 一 个 高 层 架 构 提 出 













































































6.1.2.2 数据 传输 

在 商业 云 中 〈 较 少 程度 上 ， 在 商业 云 之 外 ) 数据 传输 的 成 本 〈 时 间 和 金钱 ) 经 常 被 认为 是 使 
用 云 的 一 个 难点 。 如 果 商 业 云 成 为 一 个 国家 计算 机 基础 设施 的 重要 部 分 ， 我 们 可 以 预期 在 云 和 
TeraGrid 之 间 将 出 现 一 条 高 带宽 链 路 。 带 有 分 块 (TE Azure blob H) 和 表格 的 云 数据 的 特殊 结构 允 
许 高 性 能 并 行 算法 ， 但 最 初 ， 使 用 简单 HTTP 机 制 在 学 术 系 统 /TeraGrid 和 商业 云 上 传输 数据 5-5 。 

6.1.2.3 安全 、 隐 私 和 可 用 性 

以 下 技术 与 开发 一 个 健康 、 可 靠 的 云 编程 环境 的 安全 、 隐 私 和 可 用 性 需求 有 关 。 我 们 把 这 些 
技术 总 结 如 下 。 这 些 技术 中 的 一 些 以 及 可 能 的 解决 方案 已 经 在 4.4. 6 节 讨 论 过 。 

。 使 用 虚拟 集群 化 来 实现 用 最 小 的 开销 成 本 达到 动态 资源 供应 。 

。 使 用 稳定 和 持续 的 数据 存储 ， 带 有 用 于 信息 检索 的 快速 查询 。 

。 使 用 特殊 的 API 来 验证 用 户 及 使 用 商业 账户 发 送 电 子 邮 件 。 

© 使 用 像 HTTPS 或 者 SSL 等 安全 协议 来 访问 云 资源 。 
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。 需要 细 粒 度 访问 控制 来 保护 数据 完整 性 ， 阻 止 侵 人 者 或 黑客 。 

。 保护 共享 的 数据 集 ， 以 防 恶 意 算 改 、 删 除 或 者 版 权 侵 犯 。 

© 包括 增强 的 可 用 性 和 带 有 虚拟 机 实时 迁移 的 灾难 恢复 等 特性 。 

。 使 用 信用 系统 来 保护 数据 中 心 。 这 个 系统 只 授权 给 可 信用 户 ， 并 阻止 侵 人 者 。 

6. 1.3 数据 特性 和 数据 库 

在 下 面 的 内 容 中 ， 我 们 评述 了 有 用 的 编程 特性 ， 这 些 特性 和 程序 库 、blob、 驱 动 、DPFS、 表 
格 和 各 种 数据 库 (包括 SQL, NOSQL 和 非 关 系数 据 库 、 特 殊 队 列 服务 等 ) 相关 。 

6.1.3.1 FË 

人 们 进行 了 许多 努力 来 设计 虚拟 机 镜像 库 ， 以 便 管理 学 术 云 和 商业 云 中 用 到 的 的 镜像 。 本 
章 中 描述 的 基本 云 环 境 也 包含 很 多 管理 特性 ， 允 许 方便 地 部 署 和 配置 镜像 〈 即 它们 支持 IaaS ) 。 

6.1.3.2 blob 和 驱动 

云 中 基本 的 存储 概念 是 Azure 的 blob 和 亚马逊 的 S3。 这 些 都 能 由 Azure 的 集 装 器 来 组 织 〈 近 
似 地 ， 和 在 目录 中 一 样 ) 。 除 了 blob 和 $3 的 服务 接口 ， 人 们 还 可 以 “直接 ”附加 到 计算 实例 中 
作为 Azure 驱动 和 亚 马 偿 的 弹性 块 存储 。 这 个 概念 类 似 于 共享 文件 系统 ， 比 如 TeraGrid 中 使 用 的 
Lustre。 云 存储 内 部 是 有 容错 能 力 的 ， 而 TeraGrid 需要 备份 存储 。 然 而 ， 云 和 TeraGrid 之 间 的 体 
系 结构 理念 非常 类 似 ， 所 以 简单 云 文件 存储 API' 也 会 变 得 更 为 重要 。 

6.1.3.3 DPFS 

这 包括 对 诸如 谷歌 文件 系统 (MapReduce) 、HDFS (Hadoop) 和 Cosmos (Dryad) 等 文件 系统 
的 支持 ， 并 且 带 有 为 数据 处 理 而 优化 过 的 计算 -数据 密切 度 。 这 使 得 链接 DPFS 到 基本 blob 和 基 
于 驱动 的 体系 结构 成 为 可 能 ， 但 是 将 DPFS 用 作 以 应 用 为 中 心 并 带 有 计算 - 数据 密切 度 的 存储 模 
型 会 更 简单 ， 同 时 用 blob 及 驱动 作为 以 存储 为 中 心 的 视图 。 

一 般 来 说 ， 需 要 数据 传输 来 连接 这 两 种 数据 视图 。 认 真 地 考虑 这 一 点 似乎 很 重要 ， 因 为 
DPFS 文件 系统 是 为 执行 数据 密集 型 应 用 而 精确 设计 的 。 然 而 ， 链 接 亚 马 逊 和 Azure 的 DPFS 的 重 
要 性 还 不 是 很 清楚 ， 因 为 这 些 云 现在 并 没有 为 计算 - 数据 密切 度 提 供 细 粒度 支持 。 在 这 里 ， 我 们 
注意 到 Azure Affinity Groups 是 一 个 有 趣 的 功能 ”1 。 我 们 期 望 最 初 bob、 驱 动 、 表 格 和 队列 都 在 这 
个 范围 内 ,并 且 学 术 系 统 能 有 效 地 提供 类 似 于 Azure 〈 以 及 亚马逊 ) 那样 的 平台 。 注 意 HDFS 
(Apache) 和 Sector (UIC) 项 目 也 在 这 个 范围 内 。 

6.1.3.4 SQL 和 关系 型 数据 库 

WA Azure 云 都 提供 关系 型 数据 库 ， 这 可 以 直接 为 学 术 系 统 提供 一 个 类 似 的 功能 ， 但 如 
果 是 需要 大 规模 数据 ， 事 实 上 ， 基 于 表 或 MapReduce 的 方法 可 能 会 更 合适 " 。 作 为 一 个 早期 的 用 
P, 我 们 正在 为 观测 性 医疗 结果 伙伴 关系 组 织 (Observational Medical Outcomes Partnership, 
OMOP) 开发 一 个 基于 FutureGrid 的 新 的 私有 云 计算 模型 ， 这 是 关于 病人 医疗 数据 的 项 目 ， 使 用 
了 Oracle 和 SAS， 其 中 FutureGrid 增加 了 Hadoop 来 扩展 到 许多 不 同 的 分 析 方 法 。 

注意 到 ， 我 们 可 以 使 用 数据 库 来 说 明 两 种 配置 功能 的 方法 。 传 统 情况 下 ， 我 们 可 以 把 数据 库 
软件 加 入 到 计算 机 磁盘 。 给 出 你 的 数据 库 实例 后 ， 这 个 软件 就 能 被 执行 。 然 而 在 Azure 和 亚马逊 
中 ,数据 库 是 安装 在 一 个 独立 于 你 的 作业 (Azure 中 的 工作 机 角色 ) 的 单独 虚拟 机 上 。 这 实现 了 
“SQL 即 服务 ” 。 在 消息 传递 接口 上 可 能 存在 一 些 性 能 问题 ， 但 是 很 明显 “ 即 服 务 ” 部 署 简化 了 
系统 。 对 于 六 个 平台 特性 来 说 ， 我 们 只 需要 NN 个 服务 ， 其 中 不 同方 式 的 可 能 镜像 数量 会 是 2”。 

6.1.3.5 表格 和 NOSQL 非 关 系 型 数据 库 

在 简化 数据 库 结构 ( 称 为 NOSQL'5" ) 上 已 经 有 了 很 多 重要 的 进展 ， 典 型 情况 强调 了 分 布 
式 和 可 扩展 性 。 这 些 进 展 体现 在 三 种 主要 云 里 : 谷歌 的 BigTable0 1 、 亚 马 逊 的 SimpleDB'” 和 
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Azure 的 Azure Table0] 。 由 天 文学 (中 的 VOTable 标准 和 Excel 的 普及 都 清楚 说 明了 表格 在 科学 
中 的 重要 性 。 然 而 在 云 之 外 使 用 表格 并 没有 丰富 经 验 。 

当然 也 有 非 关 系 型 数据 库 的 许多 重要 应 用 ， 尤 其 是 使 用 三 元 存储 来 实现 元 数据 的 存 取 。 最 
近 ， 研 究 人 员 的 兴趣 在 于 基于 MapReduce 和 表格 或 者 Hadoop 文件 系统 "来 建立 可 扩展 的 RDF 
三 元 存储 ， 在 大 规模 存储 上 有 一 些 早 期 成 功 的 报道 。 当 前 的 云 表 格 可 以 分 为 两 组 : Azure 表格 和 
亚马逊 SimpleDB 非常 类 似 "" ， 并 支持 轻 量 级 的 “文档 商店 ”存储 ; 而 BigTable 旨 在 管理 大 规模 
分 布 式 数 据 集 ， 且 没有 大 小 的 限制 。 

所 有 这 些 表格 都 是 自由 模式 的 (每 个 记录 可 以 有 不 同 的 属性 )， 尽 管 BigTable 有 列 (属性 ) 
家 族 模式 。 表 格 对 科学 计算 的 作用 似乎 会 越 来 越 大 ， 学 术 系 统 会 用 两 个 Apache 项 目 来 支持 这 一 
点 : BigTable 的 Hbase!"”! 和 文档 商店 的 CouchDB08l 。 另 一 个 可 能 是 开源 的 SimpleDB 实现 M/ 
DB"! 。 支 持 文件 存储 、 文 档 存储 服务 和 简单 队列 的 新 的 Simple Cloud API ， 可 以 帮助 在 学 术 云 
和 商业 云 之 间 提 供 一 个 公共 的 环境 。 

6.1.3.6 队列 服务 

亚马逊 和 Azure 都 能 提供 类 似 的 可 扩展 、 健 壮 的 队列 服务 ， 用 来 在 一 个 应 用 的 组 件 之 间 通 
信 。 消 息 长 度 应 较 短 (小 于 8KB)， 有 一 个 “至 少 发 送 一 次 ”语义 的 REST 服务 接口 。 这 些 由 超 
时 医 来 控制 ， 能 发 送 一 个 客户 端 所 允许 的 处 理 时 间 长 度 。 人 们 可 以 (在 一 个 更 小 、 更 少 挑战 的 
学 术 环 境 ) 建立 类 似 的 方法 ， 基 于 ActiveMQ! at NaradaBrokering'"”) 等 发 布 -订阅 系统 ， 这 
些 我 们 都 有 大 量 经 验 。 
6. 1.4 编程 和 运行 时 支持 

我 们 需要 编程 和 运行 时 支持 来 促进 并 行 编程 ， 并 为 今天 的 网 格 和 云 上 的 重要 功能 提供 运行 
时 支持 。 本 节 介 绍 了 各 种 MapReduce 系统 。 

6.1.4.1 工作 机 和 Web 角色 

Azure 引入 的 角色 提供 了 重要 功能 ， 并 有 可 能 在 非 虚 拟 化 环境 中 保留 更 好 的 密切 度 支持 。 工 
作 机 和 角色 是 基本 的 可 调度 过 程 ， 并 能 自动 启动 。 注 意 在 云 上 没有 必要 进行 明显 的 调度 ， 无 论 是 对 
个 人 工作 机 角色 还 是 MapReduce 透明 支持 的 “ 群 组 调度 ”。 在 这 里 ， 队 列 是 一 个 关键 概念 ， 因 为 
它们 提供 一 个 自然 的 方法 来 以 容错 、 分 布 式 方式 管理 任务 分 配 。Web 角色 为 门户 提供 了 一 个 有 
趣 的 途径 。GAE 主要 用 于 Web 应 用 ， 而 科学 门户 在 TeraGrid 上 非常 成 功 。 

6.1.4.2 MapReduce 

“数据 并 行 ”语言 日 益 受 到 广泛 关注 ， 这 种 语言 主要 的 目的 在 于 在 不 同 数据 样本 上 执行 松 耦 
合 的 计算 。 语 言 和 运行 时 产生 和 提供 了 “多 任务 ”问题 的 有 效 执行 ， 著 名 的 成 功 案例 就 是 网 格 
应 用 。 然 而 ， 与 传统 方法 相 比 ， 表 6-5 中 总 结 的 MapReduce 对 于 多 任务 问题 的 实现 有 一 些 优点 ， 
因为 它 支 持 动态 执行 、 强 容错 性 以 及 一 个 容易 使 用 的 高 层 接 口 。 主 要 的 开源 /商用 MapReduce 实 
现 是 Hadoop! 和 Dryad!™ -2 ， 其 执行 可 能 用 到 或 者 不 用 虚拟 机 。 

Hadoop 现在 是 由 亚马逊 提供 的 ， 我 们 期 望 Dryad 能 在 Azure 上 实现 。 印 第 安 纳 大 学 已 经 建立 
了 一 个 原型 Azure MapReduce， 我 们 将 在 下 面 讨 论 。 在 FutureGrid 上 ， 我 们 已 经 准备 好 支持 
Hadoop, Dryad 和 其 他 MapReduce 方案 ， 包 括 Twister'” ， 它 支持 在 很 多 数据 挖掘 和 线性 代数 应 用 
中 的 迭代 计算 。 注 意 ， 这 个 方法 和 Cloudera!™) 有 点 类 似 ，Cloudera 能 提供 很 多 Hadoop 分 发 版 本 ， 
包括 亚马逊 和 Linux。MapReduce 相对 于 其 他 云 平台 特性 而 言 更 接近 于 宽 部 署 ， 因 为 它 有 相当 多 
关于 Hadoop 和 Dryad 在 云 外 的 经 验 。 
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谷歌 MapReduce | Apache Hadoop!” 微软 DryadL281 Twister!”?! | Azure Twister’! 

DAG 执行 ; 扩 现在 只 有 Mp 

编程 模型 MapReduce MapReduce 展 到 MapReduce 迭代 MapReduce | Reduce; 将 扩展 为 可 
和 其 他 模式 迭代 的 MapReduce 
六 

GFS (谷歌 文件 . HDFS ( Hadoop 分 共享 目录 和 本 本 地 磁盘 和 数 

数据 处 理 | 系统 ) 布 式 文件 系统 ) | am 据 管理 工具 Azure blob 存 全 
i 数据 位 置 ; 运 
数据 位 置 ; Rack | ,. 
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调度 数据 位 轩 感知 |; 用 全 局 队列 | 拓扑 ; 静态 任务 | 态 任务 分 区 行动 态 任 务 调度 
进行 动态 任务 调度 分 区 
+ — — 

重新 执行 失败 任 重新 执行 失败 任 重新 执行 失败 选 代 的 重新 重新 执行 失败 

故障 处 理 | 务 ; 慢 速 任务 的 复 | 务 ; 慢 速 任务 的 复 | 任务 ; BRIEF 执行 任务 ; BREF 
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iE [一 | Pregel'™! 有 相 
HL 支持 | Sawaal!” Pig Latin! DoadLINQI21 B N/A 
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Linux 集群 ， 亚 马 Windows HPCS Windews Azure, 
环境 Linux 集群 a EC2 上 的 弹 集群 Linux 集群 ， EC2 | Azure 本 地 开发 虚 
性 MapReduce 所 环境 
| 文件 ，TCP 管 
中 间 数 据 | ”文件 文件 、HTTP 道 ， 共 me 内 | .发布 -订阅 消 | 文件 ,TCP 
传输 # FIFO 息 传 递 


6.1.4.3 云 编程 模型 

前 面 的 大 多 数 内 容 都 是 描述 编程 模型 特性 ， 但 是 还 有 很 多 “宏观 的 ”架构 ， 并 不 能 作为 代 
码 〈 语 言 和 库 ) GAE 和 Manjrasoft Aneka 环境 都 代表 编程 模型 ， 都 适用 于 云 ， 但 实际 上 并 不 是 
针对 这 个 体系 结构 的 。 迭 代 MapReduce 是 一 个 有 用 的 编程 模型 ， 它 提供 了 在 云 、HPC 和 集群 环 
境 之 间 的 可 移植 性 。 

6. 1.4.4 软件 即 服务 

服务 在 商业 云 和 大 部 分 现代 分 布 式 系统 中 以 类 似 的 方式 使 用 。 我 们 希望 用 户 能 尽 可 能 地 封 
装 他 们 的 程序 ， 这 样 不 需要 特殊 的 支持 来 实现 软件 即 服务 。 我 们 已 经 在 6. 1. 3 节 中 讨论 过 为 什么 
在 一 个 数据 库 服 务 环境 下 “系统 软件 即 服务 ”是 一 个 有 趣 的 想法 。 我 们 需要 SaaS 环境 提供 很 多 
有 用 的 工具 ， 能 在 大 规模 数据 集 上 开发 云 应 用 。 除 了 技术 特征 之 外 ， 例 如 MapReduce, BigTable, 
EC2、S3、Hadoop、AWS、GAE 和 WebSphere2 ， 我 们 还 需要 可 以 帮助 我 们 实现 可 扩展 性 、 安 全 
性 、 隐 私 和 可 用 性 的 保护 特征 。 


6.2 并行 和 分 布 式 编程 范式 


我 们 把 并 行 和 分 布 式 程序 定义 为 运行 在 多 个 计算 引擎 或 一 个 分 布 式 计 算 系 统 上 的 并 行程 序 。 
这 个 术语 包含 计算 机 科学 中 的 两 个 基本 概念 : 分 布 式 计算 系统 和 并 行 计算 。 分 布 式 计算 系统 是 
一 系列 由 网 络 连 接 的 计算 引擎 ， 它 们 完成 一 个 共同 目标 : 运行 一 个 作业 或 者 一 个 应 用 。 计 算 机 集 
群 或 工作 站 网 络 就 是 分 布 式 计算 系统 的 一 个 实例 。 并 行 计算 是 同时 运用 多 个 计算 引擎 (并 不 一 
定 需 要 网 络 连 接 ) 来 运行 一 个 作业 或 者 一 个 应 用 。 例 如 ， 并 行 计算 可 以 使 用 分 布 式 或 者 非 分 布 
式 计算 系统 ， 如 多 处 理 器 平台 。 
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在 分 布 式 计算 系统 上 (并行 和 分 布 式 编程 ) 运行 并 行程 序 ， 对 于 用 户 和 分 布 式 计算 系统 都 
342 | 有 一 些 优点 。 从 用 户 的 角度 ， 它 减少 了 应 用 响应 时 间 ; 从 分 布 式 计算 系统 的 角度 ， 它 提高 了 吞吐 
343 | 量 和 资源 利用 率 。 然 而 ， 在 分 布 式 计算 系统 上 和 运行 并 行程 序 ， 是 一 个 很 复杂 的 过 程 。 所 以 ， 从 复 
杂 性 的 角度 ， 本 章 将 进一步 介绍 在 分 布 式 系统 上 运行 一 个 典型 并 行程 序 的 数据 流 。 
6.2.1 并 行 计算 和 编程 范式 
考虑 一 个 由 多 个 网 络 节点 或 者 工作 机 组 成 的 分 布 式 计算 系统 。 这 个 系统 是 用 并 行 或 分 布 式 
方式 来 运行 一 个 典型 的 并 行程 序 ， 该 系统 包括 以 下 方面 
。 分 区 : 如 下 所 示 ， 分 区 适用 于 计算 和 数据 两 方面 : 
。 计算 分 区 : 计算 分 区 是 把 一 个 给 定 的 任务 或 者 程序 分 割 成 多 个 小 任务 。 分 区 过 程 很 大 程 
度 上 依靠 正确 识别 可 以 并 发 执行 的 作业 或 程序 的 每 一 小 部 分 。 换 句 话说， 一 旦 在 程序 结 
构 中 识别 出 并 行 性 ， 它 就 可 以 分 为 多 个 部 分 ， 能 在 不 同 的 工作 机 上 和 运行。 不 同 的 部 分 可 
以 处 理 不 同 的 数据 或 者 同一 数据 的 副本 。 
数据 分 区 : 数据 分 区 是 把 输入 或 中 间 数 据 分 割 成 更 小 的 部 分 。 类 似 地 ， 一旦 识别 出 输入 
数据 的 并 行 性 ， 它 也 可 以 被 分 割 成 多 个 部 分 ， 能 在 不 同 的 工作 机 上 运行 。 数 据 块 可 由 程 
序 的 不 同 部 分 或 者 同一 程序 的 副本 来 处 理 。 
映射 : 映射 是 把 更 小 的 程序 部 分 或 者 更 小 的 数据 分 块 分 配给 底层 的 资源 。 这 个 过 程 的 目 
的 在 于 合理 分 配 这 些 部 分 或 者 分 块 ， 使 它们 能 够 同时 在 不 同 的 工作 机 上 和 运行。 映射 通常 
由 系统 中 的 资源 分 配器 来 处 理 。 
同步 : 因为 不 同 工 作 机 可 以 执行 不 同 的 任务 ， 工 作 机 之 间 的 同步 和 协调 就 很 有 必要 。 这 
样 可 以 避免 竞争 条 件 ， 不 同 工 作 机 之 间 的 数据 依赖 也 能 被 恰当 地 管理 。 不 同 工 作 机 多 路 
访问 共享 资源 可 能 引起 竞争 条 件 。 然 而 ， 当 一 个 工作 机 需要 其 他 工作 机 处 理 的 数据 时 会 
产生 数据 依赖 。 
通信 ， 因为 数据 依赖 是 工作 机 之 间 通 信 的 一 个 主要 原因 ， 当 中 间 数 据 准 备 好 在 工作 机 之 
间 传 送 时 ， 通 信 通 常 就 开始 了 。 
调度 : 对 于 一 项 作业 或 一 个 程序 ， 当 计算 部 分 (任务 ) 或 数据 块 的 数量 多 于 可 用 的 工作 
机 数量 时 ， 调 度 程序 就 会 选择 一 个 任务 或 数据 块 的 序列 来 分 配给 工作 机 。 值 得 注意 的 是 ， 
资源 分 配器 完成 计算 或 数据 块 到 工作 机 的 实际 映射 ， 而 调度 器 只 是 基于 一 套 称 为 调度 策 
略 的 规则 ， 来 从 没有 分 配 的 任务 队列 中 选择 下 一 个 任务 。 对 于 多 作业 或 多 程序 ， 调 度 器 
会 选择 运行 在 分 布 式 计算 系统 上 的 一 个 任务 或 程序 的 序列 。 这 样 看 来 ， 当 系统 资源 不 够 
同时 运行 多 个 作业 或 程序 时 ， 调 度 器 也 是 很 有 必要 的 。 
编程 范式 的 动机 
因为 处 理 并 行 和 分 布 式 编程 的 整个 数据 流 是 非常 耗 时 的 ， 并 且 需 要 特别 的 编程 知识 ， 所 以 处 理 
这 些 问 题 会 影响 到 程序 员 的 效率 ， 甚 至 会 影响 到 程序 进 人 市 场 的 时 间 。 而 且 ， 它 会 干扰 程序 员 集 中 精 
BA) 力 在 程序 本 身 的 逻辑 上 。 因 此 ， 提 供 并 行 和 分 布 式 编程 范式 或 模型 来 抽象 用 户 数据 流 的 多 个 部 分 。 
换 句 话说， 这 些 模型 的 目的 是 为 用 户 提供 抽象 层 来 隐藏 数据 流 的 实现 细节 ， 否 则 以 前 用 户 
是 需要 为 之 写 代 码 的 。 所 以 ， 编 写 并 行程 序 的 简单 性 是 度量 并 行 和 分 布 式 编程 范式 的 重要 标准 。 
并 行 和 分 布 式 编程 模型 背后 的 其 他 动机 还 有 : (1) 提高 程序 员 的 生产 效率 ，(2) 减少 程序 进入 市 
场 的 时 间 ，(3) 更 有 效 地 利用 底层 资源 ，(4) 提高 系统 的 吞吐 量 ，(5) 支持 更 高 层 的 抽象 。 
MapReduce, Hadoop 和 Dryad 是 最 近 提 出 的 三 种 并 行 和 分 布 式 编程 模型 。 这 些 模型 是 为 信息 
检索 应 用 而 开发 的 ， 不 过 已 经 显示 出 它们 也 适用 于 各 种 重要 应 用 。 而 且 这 些 范 式 组 件 之 间 的 
松散 砚 合 使 得 它们 适用 于 虚拟 机 实现 ， 并 使 其 对 于 某 些 应 用 的 容错 能 力 和 可 扩展 性 都 优 于 传统 
的 并 行 计算 模型 ， 例 如 MPI, 
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6.2.2 MapReduce, Twister 和 和 迭代 MapReduce 

6. 1.4 节 介 绍 的 MapReduce 是 一 个 软件 框架 ， 可 以 支持 大 规模 数据 集 上 的 并 行 和 分 布 式 计 
算 '”'%“,%]。 这 个 软件 框架 抽象 化 了 在 分 布 式 计算 系统 上 运行 一 个 并 行程 序 的 数据 流 ， 并 以 两 
个 函数 的 形式 提供 给 用 户 两 个 接口 : Map (了 映射 ) 和 Reduce (化 简 )。 用 户 可 以 重 载 这 两 个 函数 
以 实现 交互 和 操纵 运行 其 程序 的 数据 流 。 图 6-1 说 明了 在 MapReduce 框架 中 从 Map 到 Reduce R 
数 的 逻辑 数据 流 。 在 这 个 框架 中 ,数据 的 “value” 部 分 (hey, value) 是 实际 数据 ，'key” 部 分 
只 是 被 MapReduce 控制 器 使 用 来 控制 数据 流 '”。 

用 户 接口 






Reduce 






数据 流 












控制 流 
MapReduce 库 
控制 器 


MapReduce 
软件 框架 


bj 














图 6-1 MapReduce 框架 : 输入 数据 流 经 Map 和 Reduce 函数 ， 在 使 用 MapReduce 软件 库 的 控制 
流下 产生 输出 结果 。 使 用 特别 的 用 户 接口 来 访问 Map 和 Reduce 资源 

6.2.2.1 MapReduce 的 形式 化 定义 

MapReduce 软件 框架 向 用 户 提供 了 一 个 具有 数据 流 和 控制 流 的 抽象 层 ， 并 隐藏 了 所 有 数据 流 
实现 的 步 又， 比如， 数据 分 块 、 映 射 、 同 步 、 通 信和 调度 。 这 里 ,虽然 在 这 样 的 框架 中 数据 流 已 
被 预定 义 ， 但 抽象 层 还 提供 两 个 定义 完善 的 接口 ， 这 两 个 接口 的 形式 就 是 Map 和 Reduce 这 两 个 
函数 ”“”) 。 这 两 个 主 函 数 能 由 用 户 重 载 以 达到 特定 目标 。 图 6-1 给 出 了 具有 数据 流 和 控制 流 的 
MapReduce 框架 。 

所 以 用户 首 先 重 载 Map 和 Reduce 函数 ， 然 后 从 库 里 调用 提供 的 函数 MapReduce (Spec, & 
Results) 来 开始 数据 流 。MapReduce 函数 MapReduce (Spec, & Results) 有 一 个 重要 的 参数 ， 这 个 
参数 是 一 个 规范 对 象 “Spec' 。 它 首先 在 用 户 的 程序 里 初始 化 ， 然 后 用 户 编写 代码 来 填 人 输入 和 
输出 文件 名 ， 以 及 其 他 可 选调 节 参 数 。 这 个 对 象 还 填 人 了 Map 和 Reduce 函数 的 名 字 ， 以 识别 这 
些 用 户 定义 的 函数 和 MapReduce 库 里 提供 的 函数 。 

下 面 给 出 了 用 户 程序 的 整个 结构 ， 包 括 Map, Reduce 和 Main 函数 。Map 和 Reduce 是 两 个 主 
要 的 子 程序 。 它 们 被 调用 来 实现 在 主 程序 中 执行 的 所 需 函 数 。 


Map Function (.... ) 
{ 


} 
Main Function (....) 
{ 


Initialize Spec object 


MapReduce (Spec, & Results) 
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6.2.2.2 MapReduce 逻辑 数据 流 


Map 和 Reduce 函数 的 输入 数据 有 特殊 的 结构 。 输 出 数据 也 一 样 。Map 函数 的 输入 数据 是 以 
(key, value) 对 的 形式 出 现 。 例 如 ，key 是 输入 文件 的 行 偏 移 量 ，value 是 行内 容 。Map 函数 的 输 
出 数据 的 结构 类 似 于 (key, value) 对 ， 称 为 中 间 (key, value) 对 。 换 句 话说， 用 户 自 定义 的 


Map 函数 处 理 每 个 输入 的 〈key，value) Xf, 


并 产生 很 多 (zero, one, or more) 中 间 (key, value) 


对 。 这 里 的 目的 是 为 Map 函数 并 行 处 理 所 有 输入 的 (key, value) 对 ( 见 图 6-2)。 
中 间 (key, val ) 对 


行 偏 移 量 行内 容 


唯一 键 值 


Key 


(key1, val) 


(key1, val) 


- (key8, val) 


Key - (key2, val (key1, val) ， 
acid (key, [val, val... (key, value) 
tth (key2, val) pee 
i #6 












(key8, val) 





<< (key5, val) 
(key 1, val) 


(key8, val) (key8, [val, val...]) 
(key8, val) 





MapReduce 库 


6-2 FES PALME RPE (key, value) 对 的 MapReduce 逻辑 数据 流 


反 过 来 ，Reduce 函数 以 中 间 值 群 组 的 形式 接受 中 间 (key, value) 对 ， 这 个 中 间 值 群 组 和 一 
个 中 间 key( key, [set of values]) 相关 。 实 际 上 ，MapReduce 框架 形成 了 这 些 群 组 ， 首 先是 对 中 间 
(key, value) 对 排序 ， 然 后 以 相同 的 key 来 把 value 分 组 。 需 要 注意 的 是 ， 数 据 的 排序 是 为 了 简 
化 分 组 过 程 。Reduce 函数 处 理 每 个 〈key，[ set of values]) 群 组 ， 并 产生 (key, value) 对 集合 作 


为 输出 。 


为 了 阐明 样本 MapReduce 应 用 中 的 数据 流 ， 我 们 这 里 将 介绍 MapReduce 的 一 个 例子 应 用 ， 
也 是 一 个 著名 的 MapReduce 问题 一 一 被 称 为 “单词 计数 ” (word-count) ， 是 用 来 计算 一 批文 档 中 
每 一 个 单词 出 现 的 次 数 。 图 6-3 说 明了 一 个 简单 输入 文档 的 “单词 计数 ”问题 的 数据 流 ， 这 个 文 
件 只 包含 如 下 两 行 : (1) “most people ignore most poetry”, (2) “most poetry ignores most people” , 
在 这 个 例子 里 ，Map 函数 同时 为 每 一 行内 容 产 生 若 干 个 中 间 (key, value) 对 ， 所 以 每 个 单词 都 
用 带 “1” 的 中 间 键 值 作为 其 中 间 值 ， 如 (ignore, 1) 。 然 后 ，MapReduce 库 收 集 所 有 产生 的 中 间 
(key, value) 对 ， 进 行 排序 ， 然 后 把 每 个 相同 的 单词 分 组 为 多 个 “1”， 如 (people, [1, 1])。 然 
后 把 组 并 行 送 入 Reduce 函数 ， 所 以 就 把 每 个 单词 的 “1” 累加 起 来 ， 并 产生 文件 中 每 个 单词 出 现 


的 实际 数目 ， 例 如 (people, 2) 。 


Most people 
ignore most poetry 


中 间 (key, val ) 对 








(most, 1) (ignore, 1) 
(people, 1) (ignores, 1) 
(ignore, 1 (most, 1) 
(most, 1) (most, 1) 
(poetry, 1) (most, 1) 
aah ) tÈ (most, 1) 
(poetry, 1) ™ (people, 1) 
' (ignores, 1) (people, 1) 
- (most, 1) (poetry, 1) 
(people, 1) (poetry, 1) 
Most poetry , MapReduce 库 


ignores most people 


唯一 键 值 


(ignore, 1) ——»f/. 


(ignores, 1) 
(most, 1,1,1,1) 
#8 (people, 1,1) 

(poetry, 1,1) 





awe ne ne 





(ignore, 1) 
(ignores, 1) 
(most, 4) 
(people, 2) 
(poetry, 2) 





图 6-3 单词 计数 问题 的 数据 流 ， 以 级 联 操作 方式 使 用 MapReduce 函数 (Map, Sort, Group 和 Reduce) 
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6.2.2.3 MapReduce 数据 流 的 形式 化 符号 
对 每 个 输入 (key, value) 对 并 行 地 应 用 Mop 函数 ， 并 产生 新 的 中 间 (key, value) Xy, 


如 下 所 示 : i 
Map X 





(key, ,val, ) List( key, ,val, ) (6-1) 
然后 ，MapReduce 库 收 集 所 有 输入 (key, value) 对 产生 的 中 间 (key, value) 对 ， 并 基于 键 值 部 
分 进行 排序 。 然 后 分 组 统计 所 有 相同 键 值 出 现 的 次 数 。 最 后 ， 对 于 每 个 分 组 并 行 地 应 用 Reduce 
函数 ， 来 产生 值 集 合作 为 输出 ， 如 下 所 示 : 
(key, ,List(val, )) ZELE, (0, ) (6-2) 
6.2.2.4 解决 MapReduce 问题 的 策略 

正如 上 文 提 及 的 ， 将 所 有 中 间 数 据 分 组 之 后 ， 出 现 相同 key 的 value 会 排序 并 组 合 在 一 起 。 
产生 的 结果 是 ， 分 组 之 后 所 有 中 间 数 据 中 每 一 个 key 都 是 唯一 的 。 所 以 寻找 唯一 的 key 是 解决 一 
个 典型 MapReduce 问题 的 出 发 点 。 然 后 ， 作 为 Map 函数 输出 的 中 间 (key, value) 对 将 会 自动 找 
到 。 下 面 的 三 个 例子 解释 了 如 何在 这 些 问题 中 确定 key 和 value; 

问题 1: 计算 一 批文 档 中 每 个 单词 的 出 现 次 数 。 

解 : 唯一 “key” 一 一 每 个 单词 ;中间 “value” 一 一 出 现 次 数 。 

问题 2: 计算 一 批文 档 中 相同 大 小 、 相 同 字母 数量 的 单词 的 出 现 次 数 。 

解 ， 唯一 “key” 一 一 每 个 单词 ; 中 间 “value” 一 一 单词 大 小 。 

问题 3: 计算 一 批文 档 中 变 位 词 (anagram) 出 现 的 次 数 。 变 位 词 是 指 字 母 相 同 但 是 顺序 不 
同 的 单词 (例如 ,单词 “listen” 和 “silent”) 。 

解 : 唯一 “key” 一 一 每 个 单词 中 按照 字母 顺序 排列 的 字母 (如 “eilnst”); 中 间 
“value” 一 一 出 现 次 数 。 

6.2.2.5 MapReduce 真实 数据 和 控制 流 

MapReduce 框架 主要 作用 是 在 一 个 分 布 式 计算 系统 上 高 效 运行 用 户 程序 。 所 以 ，MapReduce 
框架 精细 地 处 理 这 些 数 据 流 的 所 有 分 块 、 映 射 、 同 步 、 通 信和 和 调度 的 细节 '*'*1。 我 们 总 结 为 如 
下 11 个 清晰 的 步 又 ， 

1. 数据 分 区 : MapReduce 库 将 已 存 人 GFS 的 输入 数据 (文件 ) 分 割 成 ML 部分， 用 也 即 映射 
任务 的 数量 。 

2. 计算 分 区 : 计算 分 块 通过 强迫 用 户 以 Map 和 Reduce 函数 的 形式 编写 程序 ，( 在 
MapReduce 框架 中 ) 被 隐 式 地 处 理 。 所 以 ，MapReduce 库 只 生成 用 户 程 序 的 多 个 复制 Ca 
如 ， 通 过 fork 系统 调用 ) ， 它 们 包含 了 Map 和 Reduce 函数 ， 然 后 在 多 个 可 用 的 计算 引擎 上 
分 配 并 启动 它们 。 

3. 决定 主 服务 器 (master) 和 服务 器 (worker): MapReduce 体系 结构 是 基于 主 服务 器 - 服 
务 器 模式 的 。 所 以 一 个 用 户 程序 的 复制 变 成 了 主 服务 器 ， 其 他 则 是 服务 器 。 主 服务 器 挑选 空闲 的 
服务 器 ， 并 分 配 Map 和 Reduce 任务 给 它们 。 典 型 地 ， 一 个 映射 /化 简 服务 器 是 一 个 计算 引擎 ， 例 
如 集群 节点 ， 通 过 执行 Map/ Reduce 函数 来 运行 映射 /化 简 任务 。 步 骤 4 ~7 描述 了 映射 服务 器 。 

4. 读 取 输入 数据 (数据 分 发 ) ; 每 一 个 映射 服务 器 读 取 其 输入 数据 的 相应 部 分 ， 即 输入 数据 
分 割 ， 然 后 输入 至 其 Map 函数 。 虽 然 一 个 映射 服务 器 可 能 运行 多 个 Map 函数 ， 这 意味 着 它 分 到 
了 不 止 一 个 输入 数据 分 割 ; 通常 每 个 服务 器 只 分 到 一 个 输入 分 割 。 

5. Map 函数 : 每 个 Map 函数 以 .(key，value) 对 集合 的 形式 收 到 输入 数据 分 制 ， 来 处 理 并 产 
生 中 间 (key, value) 对 。 
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6. Combiner 函数 : Combiner 函数 是 映射 服务 器 中 一 个 可 选 的 本 地 函数 ， 适 用 于 中 间 (key, 
value) 对 。 用 户 可 以 在 用 户 程序 里 调用 Combiner ph. Combiner 图 数 运行 用 户 为 Reduce 函数 所 
写 的 相同 代码 ， 因 为 它们 的 功能 是 一 样 的 。Combiner 函数 合并 每 个 映射 服务 器 的 本 地 数据 ， 然 后 
送 到 网 络 传输 ， 以 有 效 减 少 通信 成 本 。 正 如 我 们 在 逻辑 数据 流 的 讨论 中 提 到 的 ，MapReduce 框架 
对 数据 进行 排序 并 分 组 ， 然 后 数据 被 Reduce 函数 处 理 。 类 似 地 ， 如 果 用 户 调用 Combiner HR, 
MapReduce 框架 也 会 对 每 个 映射 服务 器 的 本 地 数据 排序 并 分 组 。 

7. Partitioning 函数 : 正如 在 MapReduce 数据 流 中 提 到 的 ， 具 有 相同 键 值 的 中 间 (key, value) 
对 被 分 组 到 一 起 ， 因 为 每 个 组 里 的 所 有 值 都 应 只 由 一 个 Reduce 函数 来 处 理 产 生 最 终结 果 。 然 而 
在 实际 实现 中 ， 由 于 有 MA map 和 R 个 化 简 任务 ， 有 相同 key 的 中 间 (key, value) 对 可 由 不 同 
的 映射 任务 产生 ， 尽 管 它们 只 应 由 一 个 Reduce 函数 来 一 起 分 组 并 处 理 。 

所 以 ,由 每 一 个 映射 服务 器 产生 的 中 间 (key, value) 对 被 分 成 及 个 区 域 , 这 和 化 简 任务 
的 数量 相同 。 分 块 是 由 Partitioning (分 区 ) 函数 完成 ， 并 能 保证 有 相同 键 值 的 所 有 (key, 
value) 对 都 能 存储 在 同一 区 域内 。 因 此 ， 由 于 化 简 服 务 器 i 读 取 所 有 映射 服务 器 区 域 i 中 的 数 
据 ， 有 相同 key 的 所 有 (key, value) 对 将 由 相应 的 化 简 服务 器 i 收集 ( 见 图 6-4) 。 为 了 实现 
这 个 技术 ，Partitioning 图 数 可 以 仅 是 将 数据 输入 特定 区 域 的 哈 希 函数 (例如 Hash (key) mod 
R) 。 注 意 ， 尺 个 分 区 中 的 缓冲 数据 的 位 置 被 送 至 服务 器 ， 以 便 后 来 将 数据 送 至 化 简 服 务 器 。 

映射 服务 器 
















化 简 服务 器 
图 6-4 使 用 MapReduce Partitioning 函数 把 映射 和 化 简 服务 器 链接 起 来 


图 6-5 阐述 了 所 有 数据 流 步 又 的 数据 流 实现 。 以 下 是 两 个 联网 的 步骤 : 
8. 同步 : MapReduce 使 用 简单 的 同步 策略 来 协调 映射 服务 器 和 化 简 服务 器 ， 当 所 有 映射 任 
务 完成 时 ， 它 们 之 间 的 通信 就 开始 了 。 

9. 通信 : Reduce 服务 器 i 已 经 知道 所 有 映射 服务 器 的 区 域 ;的 位 置 ， 使 用 远程 过 程 调用 来 
从 所 有 映射 服务 器 的 各 个 区 域 中 读 取 数据 。 由 于 所 有 化 简 服 务 器 从 所 有 了 映射 服务 器 中 读 取 数 
据 ， 映 射 和 化 简 服 务 器 之 间 的 多 对 多 通信 在 网 络 中 进行 ， 会 引发 网 络 拥 塞 。 这 个 问题 是 提高 
此 类 系统 性 能 的 一 个 主要 瓶颈 ”i 。 文献 [55] 提 出 了 一 个 数据 传输 模块 来 独立 地 调度 数据 
传输 。 

2b OR 10 和 11 对 应 于 化 简 服务 器 方面 的 : i 

10. 排序 和 分 组 : 当 化 简 服务 器 完成 读 取 输入 数据 的 过 程 时 ， 数 据 首 先 在 化 简 服 务 器 的 本 
地 磁盘 中 缓冲 。 然 后 化 简 服 务 器 根据 key 将 数据 排序 来 对 中 间 (key, value) 对 进行 分 组 ， 之 
后 对 出 现 的 所 有 相同 key 进行 分 组 。 注 意 ， 缓 冲 数据 已 经 排序 并 分 组 ， 因 为 一 个 映射 服务 器 产 
生 的 唯一 key 的 数量 可 能 会 多 于 灵 个 区 域 ， 所 以 在 每 个 映射 服务 器 区 域 中 可 能 有 不 止 一 个 key 
( 见 图 6-4). 
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图 6-5 映射 服务 器 和 化 简 服 务 器 的 许多 函数 的 数据 流 实现 ， 通 过 分 区 、 汇 总 、 同 步 和 通信 、 排 序 
和 分 组 ， 以 及 化 简 操 作 的 多 个 序列 


11. Reduce 函数 : 化 简 服 务 器 在 已 分 组 的 (key, value) 对 上 进行 和 迭代。 对 于 每 一 个 唯一 的 
key， 它 把 key 和 对 应 的 value 发 送 给 Reduce 函数 。 然 后 ， 这 个 函数 处 理 输入 数据 ， 并 将 最 后 输出 
结果 存 人 用 户 程序 已 经 指定 的 文件 中 。 
为 了 更 好 地 区 分 MapReduce 框架 中 的 相关 数据 控制 和 控制 流 ， 图 6-6 给 出 了 这 种 系统 中 过 程 
控制 的 精确 顺序 ， 与 图 6-5 中 的 数据 流 相 对 应 。 
6.2.2.6 计算 -数据 密切 度 
MapReduce 软件 框架 最 早 是 由 谷歌 提出 并 实现 的 。 首 次 实现 是 用 C 语言 编码 的 。 该 实现 是 将 
谷歌 文件 系统 (GFS)'” 的 优势 作为 最 底层 。MapReduce 可 以 完全 适用 于 CFS, GFS 是 一 个 分 布 
式 文件 系统 ， 其 中 文件 被 分 成 固定 大 小 的 块 ， 这 些 块 被 分 发 并 存储 在 集群 节点 上 。 
如 前 所 述 ，MapReduce 库 将 输入 数据 (文件 ) 分 割 成 固定 大 小 的 块 ， 理 想 状 态 下 是 在 
每 个 块 上 并 行 地 执行 Map 函数 。 在 这 种 情况 下 ， 由 于 GF 已 经 将 文件 保存 成 多 个 块 ， 
MapReduce 框架 只 需要 将 包含 Map 函数 的 用 户 程序 复制 发 给 已 经 存 有 数据 块 的 节点 。 这 就 
是 将 计算 发 向 数据 ， 而 不 是 将 数据 发 给 计算 。 注 意 ，GFS 块 默认 为 64MB， 这 和 MapReduce 
框架 是 相同 的 。 
6.2.2.7 Twister 和 迭代 MapReduce 
理解 不 同 运行 时 间 的 性 能 是 很 重要 的 ， 尤 其 是 比较 MPI 和 MapReduce! 55] 并行 开 销 的 
两 个 主要 来 源 是 负载 不 均衡 和 通信 (这 相当 于 通信 同步 并 行 单元 【线程 或 进程 ] 时 的 同步 开销 ， 
见 表 6-10 的 第 2 类 和 第 6 类 ) 。MapReduce 的 通信 开销 相当 大 ， 原 因 有 两 个 : 330 
© MapReduce 是 通过 文件 来 读 取 和 写 人 的 ， 而 MPI 通过 网 络 直接 在 节点 之 间 传 输 信 息 。 351 
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图 6-6 在 映射 服务 器 和 化 简 服务 器 〈 运 行 用 户 程序 ) 中 MapReduce 功能 的 控制 流 实现 ， 在 主 
服务 器 用 户 程序 的 控制 下 从 输入 文件 到 输出 文件 
注 : wW Yahoo! Pig Tutorial 提供 [84] 5 


。 MPI 并 没有 把 所 有 的 数据 都 在 节点 之 间 传 输 ， 而 只 是 需要 更 新 信息 的 数量 。 我 们 可 以 把 
MPI 流 称 为 6 流 ， 而 把 MapReduce 流 称 为 全 数据 流 。 

在 所 有 “经 典 并 行 的 ”松散 同步 应 用 中 可 以 看 到 同样 的 现象 ， 典 型 地 需要 在 计算 阶段 加 入 
一 个 迭代 结构 ， 然 后 是 通信 阶段 。 我 们 可 以 通过 两 个 重要 的 改变 来 解决 性 能 问题 : 

1. 在 各 个 步骤 之 间 的 流 信 息 ， 不 把 中 间 结 果 写 人 磁盘 。 

2. 使 用 长 期 运行 的 线程 或 进程 与 8 (在 迭代 之 间 ) 流 进 行 通信 。 

这 些 改 变 将 会 导致 重大 的 性 能 提升 ， 代 价 是 较 差 的 容错 能 力 ， 同 时 更 容易 支持 动态 改变 ， 如 
可 用 节点 的 数量 。 这 个 概念 “已 经 在 多 个 项 目 *”*”1 中 应 用 ， 此 外 ,文献 [44] 提 出 了 在 
MapReduce 应 用 中 使 用 MPI 的 直接 想法 。 图 6-7 示例 了 Twister 编程 范式 及 其 运行 时 实现 体系 结 
构 。 在 例 6.1 中 ,我 们 总 结 了 Twister’, E 6-8 给 出 了 对 于 K 均值 的 性 能 结果 '*”!， 其 中 
Twister 要 比 传统 的 MapReduce 快 很 多 。Twister 从 通信 的 动态 5 流 中 区 分 了 从 来 不 会 被 加 载 的 更 

352] 态 数 据 。 

例 6.1 在 MPI、Twister、Hadoop 和 DryaLINQ 上 的 K 均值 集群 化 的 性 能 

MapReduce 方法 能 实现 容错 和 灵活 调度 ， 但 对 于 有 些 应 用 程序 来 说 ， 其 性 能 下 降 相 对 于 MPI 
来 说 比较 严重 ， 如 图 6-8 所 示 的 一 个 简单 并 行 K 均值 集群 化 算法 。 对 于 大 规模 数据 集 Hadoop 和 
DryadLINQ 比 MPI 慢 了 10 倍 多 ,而 对 于 较 小 的 数据 集 慢 得 更 多 。 人 们 在 迭代 MapReduce 上 可 以 
使 用 很 多 通信 机 制 ， 但 是 Twister 选择 了 使 用 分 布 式 代理 集合 的 发 布 -订阅 网 络 ， 如 5.2 节 
描述 ， 达 到 了 类 似 于 ActiveMQ 和 NaradaBrokering 的 性 能 。 

Map-Reduce 对 在 长 运行 的 线程 中 迭代 地 执行 。 在 图 6-9 中 ， 我 们 比较 了 4 二 
不 同 线程 和 进程 结构 ，Hadoop、Dryad、Twister (也 称 为 MapReduce ++) 和 MPI。 注 意 ， 根 据 文 
献 [26，27] ，Dryad 可 以 使 用 管道 ， 避 免 了 昂贵 的 磁盘 写 。 
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b ) 运行 时 Twister 的 体系 结构 
图 6-7 Twister: 一 个 迭代 的 MapReduce 编程 范式 ， 用 于 重复 的 MapReduce 运行 
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- DryadLINQ —3— 
Twister —&— 
使 用 256 CPU 核 运 行 MPI 一 们 一 
0.01 
0.512 5.12 10.24 20.48 


二 维 数据 点 的 数目 ( 百 万 ) 
图 6-8 在 MPI、Twister、Hadoop 和 DryaLINQ 上 K 均值 集群 化 的 性 能 


例 6.2 在 ClubWeb 数据 集 上 用 256 处 理 器 核 时 Hadoop 和 Twister 的 性 能 


迭代 MapReduce 的 重要 研究 领域 包括 容错 能 力 和 可 伸缩 的 通信 方法 。 图 6-10 eH! BARE 
法 是 在 信息 检索 中 发 现 的 。 该 图 介绍 了 著名 的 Page Rank Hk (HRRAREEA ERE), 
运行 在 公共 ClueWeb 数据 集 上 ， 与 大 小 无 关 。 如 图 6-10 中 上 下 两 条 曲线 的 间距 所 示 ， Twister 比 


Hadoop 快 了 20 倍 。 
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Yahoo Hadoop Microsoft DRYAD MapReduce++ MPI 是 长 运行 进 
使 用 短 运行 进程 使 用 短 运 行进 程 是 长 运行 进程 ， 程 ， 用 Rendezvous 
通过 磁盘 进行 通 通过 管道 、 磁 盘 采用 异步 分 布 进行 消息 交换 / 
信 并 跟踪 进程 或 核 间 的 共享 内 式 Rendezvous 异步 化 

存 进行 通信 异步 化 





图 6-9 运行 时 并 行 编程 范式 的 线程 和 处 理 结构 
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总 运行 时 间 ( 秒 ) 
对 数 规 模 
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0.27 0.55 0.83 1.11 1.4 
URL 的 数目 (十 亿 ) 
图 6-10 在 ClueWeb 数据 集 上 使 用 256 处 理 核 时 ，Hadoop 和 Twister 性 能 


6. 2.3 来 自 Apache 的 Hadoop 软件 库 

Hadoop 是 Apache 用 Java (而 不 是 C) 编码 和 发 布 的 MapReduce 开源 实现 。MapReduce 的 
Hadoop 实现 使 用 Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS) 作为 底层 ， 而 
不 是 GFS。Hadoop 内 核 分 为 两 个 基本 层 : MapReduce 引 警 和 HDFS。MapReduce 引擎 是 运行 在 
HDFS 之 上 的 计算 引擎 ， 使 用 HDFS 作为 它 的 数据 存储 管理 器 。 下 面 两 节 内 容 涵 盖 了 这 两 个 基本 
层 的 具体 细节 。 

HDFS: HDFS 是 一 个 源 于 GFS 的 分 布 式 文件 系统 ， 是 在 一 个 分 布 式 计算 系统 上 管理 文件 和 
存储 数据 。 

HDFS 体系 结构 : HDFS 有 一 个 主 从 〈master/slave) 体系 结构 ， 包 括 一 个 单个 NameNode 作 
为 master 以 及 多 个 DataNodes 作为 工作 机 (slave)。 为 了 在 这 个 体系 结构 中 存储 文件 ，HDFS 将 文 
件 分 割 成 固定 大 小 的 块 (例如 64MB)， 并 将 这 些 块 存 到 工作 机 (DataNodes) 中 。 从 块 到 
DataNodes AYPRET AL FH NameNode 决定 的 。NameNode (master) 也 管理 文件 系统 的 元 数据 和 命名 空 
间 。 在 这 个 系统 中 ， 命 名 空间 是 维护 元 数据 的 区 域 ， 而 元 数据 是 指 一 个 文件 系统 存储 的 所 有 信 
息 ， 它 们 是 所 有 文件 的 全 面 管理 所 需要 的 。 例 如 ， 元 数据 中 的 NameNode 存储 了 所 有 DataNodes 
上 关于 输入 块 位 置 的 所 有 信息 。 每 个 DataNode， 通 常 是 集群 中 每 个 节点 一 个 ， 管 理 这 个 节点 上 的 
存储 。 每 个 DataNode 负责 它 的 文件 块 的 存储 和 检索 。 
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HDFS 特性 : 分 布 式 文件 系统 为 了 能 高 效 地 运作 ,会 有 一 些 特殊 的 需求 ， 比 如 性 能 、 可 扩展 
性 、 并 发 控制 、 容 错 能 力 和 安全 需求 1。 然 而 ， 因 为 HDFS 不 是 一 个 通用 的 文件 系统 ， 即 它 仅 
执行 特殊 种 类 的 应 用 ， 所 以 它 不 需要 一 个 通用 分 布 式 文件 系统 的 所 有 需求 。 例 如，HDFS 系统 从 
不 支持 安全 性 。 下 面 的 讨论 着 重 突出 HDFS 区 别 于 其 他 一 般 分 布 式 文件 系统 的 两 个 重要 特征 '*1。 

HDFS 容错 能 力 ，HDEFS 的 一 个 主要 方面 就 是 容错 特征 。 由 于 Hadoop 设计 时 默认 部 署 在 廉价 的 硬 
件 上 ， 系 统 硬件 故障 是 很 常见 的 。 所 以 ，Hadoop 考虑 以 下 几 个 问题 来 达到 文件 系统 的 可 靠 性 要 求 [9 ， 

。 RAB: 为 了 能 在 HDFS 上 可 靠 地 存储 数据 ， 在 这 个 系统 中 文件 块 被 复制 了 。 换 名 话说， 
HDFS 把 文件 存储 为 一 个 块 集 ， 每 个 块 都 有 备份 并 在 整个 集群 上 分 发 。 备 份 因子 由 用 户 设 
定 ， 默 认 是 3。 
备份 布置 : 备份 的 布置 是 HDFS 实现 所 需要 的 容错 功能 的 另 一 个 因素 。 虽 然 在 整个 集群 
的 不 同 机 架 的 不 同 节点 上 ( DataNodes)， 存 储备 份 提供 了 更 大 的 可 靠 性 ， 但 这 有 时 会 被 
忽略 ， 因 为 不 同 机 架 上 两 个 节点 之 间 的 通信 成 本 要 比 同一 个 机 架 上 两 个 不 同 节点 之 间 的 
通信 相对 要 高 。 所 以 ， 有 时 HDFS 会 牺牲 可 靠 性 来 降低 通信 成 本 。 例 如 ， 对 于 缺 省 的 备 
份 因子 3，HDFS 存储 一 个 备份 在 原始 数据 存储 的 那个 节点 上 ， 一 个 备份 在 同一 机 架 的 不 
同 节 点 上 ， 还 有 一 个 备份 在 不 同 机 架 的 不 同 节 点 上 ， 这 样 来 握 供 数据 的 三 个 副本 '1。 
Heartbeat 和 Blockreport 消息 :Heartbeats 和 Blockreports 是 在 一 个 集群 中 由 每 个 DataNode 
传 给 NameNode 的 周期 性 消息 。 收 到 Heartbeat 意味 着 DataNode 正 运行 正常 ， 而 每 个 
Blockreport 包括 了 DataNode 上 所 有 块 的 一 个 清单 *! 。NameNode 收 到 这 样 的 消息 ， 是 因 
为 它 是 系统 中 所 有 备份 的 唯一 的 决定 制订 者 。 

HDFS 高 吞吐 量 访问 大 规模 数据 集 (文件 ) : 因为 HDFS 主要 是 为 批 处 理 设计 的 ， 而 不 是 交 
互 式 处 理 ， 所 以 HDFS 数据 访问 吞吐 量 比 延 时 来 的 更 为 重要 。 而 且 ， 因 为 运行 在 HDFS 上 的 应 用 
程序 往往 有 大 规模 数据 集 ， 单 个 文件 会 被 分 成 大 块 (A 64MB) 以 允许 HDFS 来 减少 每 个 文件 所 
需要 的 元 数据 存储 总 量 。 这 里 提供 了 两 点 优势 ， 每 个 文件 的 块 列表 将 随 着 单个 块 大 小 的 增加 而 
减少 ， 并 且 通 过 在 一 个 块 中 顺序 地 保持 大 量 数据 ，HDFS 提供 了 数据 的 快速 流 读 取 。 

HDFS 操作 : HDFS 操作 《〈 比 如 读 和 写 ) 的 控制 流 能 正确 突出 在 管理 操作 中 NameNode 和 
DataNodes 的 角色 。 本 节 进 一 步 描述 了 HDFS 在 文件 上 的 主要 操作 控制 流 ， 表 明 在 这 样 的 系统 中 
用 户 、NameNode 和 DataNodes 之 间 的 交互 [9] 。 

。 读 取 文 件 : 为 了 在 HDFS 中 读 取 文件 ， 用 户 先 发 送 一 个 “open” 请 求 给 NameNode 以 获取 

文件 块 的 位 置信 息 。 对 于 每 个 文件 块 ，NameNode 返回 包含 请 求 文件 副本 信息 的 一 组 

”DataNodes 的 地 址 。 地 址 的 数量 取决 于 块 副本 的 数量 。 一 旦 收 到 这 样 的 信息 ， 用 户 就 调用 

read 函数 来 连接 包含 文件 第 一 个 块 的 最 近 的 DataNode。 当 第 一 块 从 有 关 的 DataNode 中 传 
至 用 户 后 ， 已 经 建立 的 连接 将 会 终止 ， 重 复 同 样 的 过 程 来 获取 所 请 求 文件 的 全 部 块 ， 直 
至 整个 文件 都 流 到 了 用 户 。 
写 入 文件 : 为 了 在 HDFS 中 写 人 文件 ， 用 户 发 送 一 个 “create” 请求 给 NameNode， 来 在 文 
件 系 统 命名 空间 里 创建 一 个 新 的 文件 。 如 果 文 件 不 存在 ，NameNode 会 通知 用 户 ， 并 人 允许 
他 调用 write 函数 开始 将 数据 写 人 文件 。 文 件 第 一 块 被 写 在 一 个 叫做 “数据 队列 ”的 内 部 
队列 中 ， 并 由 数据 流 监视 其 写 人 到 DataNode。 由 于 每 个 文件 块 都 需要 由 一 个 预定 义 的 参 
数 来 复制 ， 数 据 流 首先 发 送 一 个 请 求 给 NameNode， 以 获取 合适 的 DataNodes 列表 来 存储 
第 一 个 块 的 备份 。 

然后 ， 数 据 流 存 储 这 个 块 到 第 一 个 分 配 的 DataNode。 之 后 ， 这 个 块 由 第 一 个 DataNode 转发 
给 第 二 个 DataNode。 这 个 过 程 一 直 会 持续 到 所 有 分 配 的 DataNode 都 从 前 一 个 DataNode 那里 收 到 
了 第 一 个 块 的 备份 。 一 旦 这 个 复制 过 程 结 束 ， 第 二 块 就 会 开始 同样 的 流程 ， 并 会 持续 ， 直 到 所 有 
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文件 块 都 在 文件 系统 上 存储 并 备份 。 

6.2.3.1 Hadoop 上 的 MapReduce 体系 结构 

Hadoop 的 顶层 是 MapReduce 引擎 ， 管 理 着 分 布 式 计算 系统 上 MapReduce 作业 的 数据 流 和 控 
制 流 。 图 6-11 给 出 了 MapReduce 引擎 与 HDFS 协作 的 体系 结构 。 类 似 于 HDFS, MapReduce 引擎 
也 有 一 个 主 / 从 (master/slave) 体系 结构 ， 由 一 个 单独 的 JobTracker 作为 主 服务 器 并 由 许多 的 
TaskTracker 作为 服务 器 (slaves) 。JobTracker 在 一 个 集群 上 管理 MapReduce 作业 ， 并 负责 监视 作业 
和 分 配 任 务 给 TaskTracker。TaskTracker 管理 着 集群 上 单个 计算 节点 的 映射 和 化 简 任 务 的 执行 。 


JobTracker 
MapReduce 
引擎 





HDFS 


节点 3 





图 6-11 Hadoop 上 的 HDFS 和 MapReduce 引擎 体系 结构 ， 不 同 阴影 的 盒子 表示 应 用 不 同 数据 块 
的 不 同 功能 节点 


每 个 TaskTracker 节点 都 有 许多 同时 运行 槽 ， 每 个 运行 是 映射 任务 或 者 化 简 任 务 。 捅 槽 是 由 
TaskTracker 节点 的 CPU 支持 同时 运行 的 线程 数量 来 确定 的 。 比 如 ， 一 个 带 有 N 个 CPU 的 
TaskTracker 节点 ， 每 个 都 支持 M MRE, HA Mx NN 个 同时 运行 的 柳 '” 。 需 要 注意 的 是 ， 每 个 
数据 块 都 是 由 运行 在 单独 的 一 个 槽 上 的 映射 任务 处 理 的 。 所 以 , 在 TaskTracker 上 的 映射 任务 和 
在 各 个 DataNode 上 的 数据 块 之 间 存 在 一 一 对 应 关系 。 

6.2.3.2 在 Hadoop 里 运行 一 个 作业 

在 这 个 系统 中 有 三 个 部 分 共同 完成 一 个 作业 的 运行 : 用 户 节点 、JobTracker 和 数 个 
TaskTracker。 数 据 流 最 初 是 在 运行 于 用 户 节点 上 的 用 户 程序 中 调用 runJob (conf) 函数 ， 其 中 conf 
是 MapReduce 框架 和 HDFS 中 一 个 对 象 ， 它 包含 了 一 些 调节 参数 。runJob(conf) 函数 和 conf 如 同 
谷歌 MapReduce 第 一 次 实现 中 的 MapReduce ( Spec, &Results) 函数 和 Spec。 图 6-12 描述 了 在 
Hadoop 上 运行 一 个 MapReduce (RL BET 。 


JobTracker | 





Heartbeat 


图 6-12 在 不 同 的 TaskTracker 上 使 用 Hadoop 库 运 行 一 个 MapReduce 作业 的 数据 流 
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。 作业 提交 : 每 个 作业 都 是 由 用 户 节点 通过 以 下 步骤 提交 给 JobTracker 节点 ， 此 节点 可 能 会 
位 于 集群 内 一 个 不 同 的 节点 上 : 
m 一 个 用 户 节 点 从 JobTracker 请 求 一 个 新 的 作业 ID， 并 计算 输入 文件 分 块 。 
国 用 户 节点 复制 一 些 资源 ， 比 如 用 户 的 JAR 文件 、 配 置 文件 和 计算 输入 分 块 ， 至 
JobTracker 文件 系统 。 

B 用 户 节 点 通过 调用 submitJob() 函数 提交 任务 至 JobTracker, 
任务 分 配 : JobTracker 为 用 户 节 点 的 每 个 计算 输入 块 建立 一 个 映射 任务 ,并 分 配给 
TaskTracker 的 执行 柳 。 当 分 配 映 射 任务 给 TaskTracker 时 ，JobTracker 会 考 虑 数据 的 定位 。 
.JobTracker 也 会 创建 化 简 任务 ， 并 分 配给 TaskTracker。 化 简 任务 的 数量 是 由 用 户 事先 决定 [358 
的 ， 所 以 在 分 配 时 不 用 考虑 位 置 问题 。 
任务 执行 : 把 作业 JAR 文件 复制 到 其 文件 系统 之 后 ， 在 TaskTracker 执行 一 个 任务 (BE 
映射 还 是 化 简 ) 的 控制 流 就 开始 了 。 在 启动 Java 虚拟 机 (Java Virtual Machine, JVM) 来 
运行 它 的 映射 或 化 简 任 务 后 ， 就 开始 执行 作业 JAR 文件 里 的 指令 。 
任务 运行 校 验 : 通过 接收 从 TaskTracker 到 JobTracker 的 周期 性 心跳 监听 消息 来 完成 任务 
运行 校 验 。 每 个 心跳 监听 会 告知 JobTracker 传送 中 的 TaskTracker 是 可 用 的 ， 以 及 传送 中 
的 TaskTracker 是 否 准备 好 运行 一 个 新 的 任务 。 
6.2.4 微软 的 Dryad 和 DryadLINQ 

本 节 将 介绍 并 行 和 分 布 式 计算 中 的 两 个 运行 时 软件 环境 ， 即 微软 开发 的 Dryad 和 DryadLINQ。 

6.2.4.1 Dryad 

Dryad 比 MapReduce 更 具 灵 活性 ， 因 为 Dryad 应 用 程序 的 数据 流 并 非 被 动 或 事先 决定 ， 并 且 
用 户 可 以 很 容易 地 定义 。 为 了 达到 这 样 的 灵活 性 ， 一 个 Dryad 程序 或 者 作业 由 一 个 有 向 无 环 图 
(DAG) 定义 ， 其 顶点 是 计算 引擎 ， 边 是 顶点 之 间 的 通信 人 信道。 所以， 用 户 或 者 应 用 开发 者 在 作 
业 中 能 方便 地 指定 任意 DAG 来 指定 数据 流 。 

对 于 给 定 的 DAG，Dryad 分 配 计算 顶点 给 底层 的 计算 引擎 (集群 节点 ) ， 并 控制 边 (集群 结 
点 之 间 的 通信 ) 的 数据 流 。 数 据 分 块 、 调 度 、 上 映射 、 同 步 、 通 信和 容错 是 主楼 的 实现 细节 ， 这 
些 被 Dryad 隐藏 以 助 于 其 编程 环境 。 因 为 这 个 系统 中 作业 的 数据 流 是 任意 的 ， 在 这 里 只 对 送行 时 
环境 的 控制 流 做 进一步 阐述 。 如 图 6-13a 所 示 ， 处 理 Dryad 控制 流 的 两 个 主要 组 件 是 作业 管理 器 
和 名 字 服 务 器 。 

在 Dryad 中 ， 分 布 式 作业 是 一 个 有 向 无 环 图 ， 每 个 顶点 就 是 一 个 程序 ， 边 表示 数据 信道 。 所 
以 ， 整 个 作业 将 首先 由 应 用 程序 员 构建 ， 并 定义 了 处 理 规 程 以 及 数据 流 。 这 个 逻辑 计算 图 将 由 
Dryad 运行 时 自动 映射 到 物理 节点 。 一 个 Dryad 作业 由 作业 管理 器 控制 ， 作 业 管 理 器 负责 把 程序 
部 署 到 集群 中 的 多 个 节点 上 。 它 可 以 在 计算 集群 上 运行 ， 也 可 以 作为 用 户 工 作 站 上 的 一 个 可 访 
问 集群 的 进程 。 作 业 管理 器 有 构建 DAG 和 库 的 代码 ， 来 调度 在 可 用 资源 上 运行 的 工作 。 数据 传 
输 是 通过 信道 完成 ， 并 没有 涉及 作业 管理 器 。 所 以 作业 管理 器 应 该 不 会 成 为 性 能 的 瓶颈 。 总 而 言 
之 ， 作 业 管 理 器 : 

1. 使 用 由 用 户 提供 的 专用 程序 来 构建 作业 通信 图 (数据 流 图 ) 。 

2. 从 名 字 服 务 器 上 收集 把 数据 流 图 映射 到 底层 资源 (计算 引擎 ) 所 需 的 信息 。 

集群 有 一 个 名 字 服 务 器 ， 用 来 枚 举 集群 上 所 有 可 用 的 计算 资源 。 所 以 ， 作 业 管 理 器 就 能 和 名 
字 服 务 器 联系 ， 以 得 到 整个 集群 的 拓扑 并 制订 调度 决策 。 有 一 个 处 理 后 台 程序 运行 在 集群 的 每 
一 个 计算 节点 上 。 该 程序 的 二 进 制 文件 将 直接 由 作业 管理 器 发 送 至 相应 的 处 理 节 点 。 后 台 程序 会 被 
视 为 代理 人 ， 以 便 作 业 管 理 器 能 和 远程 顶点 进行 通信 ， 并 能 监视 计算 的 状态 。 通 过 收集 这 些 信息 ， 
名 字 服 务 器 能 够 提供 给 作业 管理 器 底层 资源 和 网 络 拓扑 的 完美 祝 图。 所 以 作业 管理 器 能 够 ， 
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SR 控制 平面 
a) Dryad 控 制 和 数据 流 





b) Dryad 作 业 结 构 
图 6-13 Dryad 体系 结构 及 其 作业 结构 、 控 制 和 数据 流 


1， 把 数据 流 图 映射 到 底层 资源 。 
359 2. 在 各 自 的 资源 上 调度 所 有 必要 的 通信 和 同步 。 
360 当 映 射 数据 流 图 到 底层 资源 时 ， 它 也 考虑 数据 和 计算 的 位 置 “ 。 当 数据 流 图 映射 到 一 系列 
计算 引擎 上 时 ， 一 个 小 的 后 台 程序 在 每 个 集群 节点 上 运行 ， 以 运行 分 配 的 任务 。 每 个 任务 是 由 用 
户 用 一 个 专用 程序 定义 的 。 在 运行 时 内 ， 作 业 管 理 器 和 每 个 后 台 程 序 通信 ， 以 监视 节点 的 计算 状 
态 及 其 之 前 和 以 后 节点 的 通信 。 在 运行 时 ， 信 道 被 用 来 传输 代表 处 理 程序 的 顶点 之 间 的 结构 化 
条 目 。 另 外 ， 还 有 几 类 通信 机 制 来 实现 信道 ， 如 共享 内 存 、TCP 套 接 字 ， 甚 至 分 布 式 文件 系统 。 
Dryad 作业 的 执行 可 以 看 做 是 二 维 分 布 式 管道 集 。 传 统 的 UNIX 管道 是 一 维 管道 ， 管 道里 的 
每 个 节点 作为 一 个 单独 的 程序 。Dryad 的 二 维 分 布 式 管道 系统 在 每 个 顶点 上 都 有 多 个 处 理 程序 。 
通过 这 个 方法 ， 可 以 同时 处 理 大 规模 数据 。 图 6-13b 给 出 了 Dryad 二 维 管道 作业 结构 。 在 二 维 管 
道 执行 的 时 候 ，Dryad 定义 了 关于 动态 地 构造 和 更 改 DAG 的 很 多 操作 。 这 些 操作 包括 创建 新 的 顶 
点 、 增 加 图 的 边 、 合 并 两 个 图 ， 以 及 处 理 作业 的 输入 和 输出 。Dryad 也 拥有 内 置 的 容错 机 制 。 因 为 
它 建立 在 DAG 上 ， 所 以 一 般 会 有 两 种 故障 : 顶点 故障 和 信道 故障 。 它 们 的 处 理 方式 是 不 一 样 的 。 
因为 一 个 集群 里 有 很 多 个 节点 ， 作 业 管理 器 可 以 选择 另 一 个 节点 来 重新 执行 分 配 到 故障 节 
点 上 相应 的 作业 。 如 果 是 边 出 现 了 故障 ， 会 重新 执行 建立 信道 的 顶点 ， 新 的 信道 会 重新 建立 并 和 
相应 的 节点 再 次 建立 连接 。 除 了 用 来 提高 执行 性 能 的 运行 时 图 精炼 外 ，Dryad 还 提供 一 些 其 他 的 
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机 制 。 作 为 一 个 通用 框架 ，Dryad 能 用 在 很 多 场合 ， 包 括 脚 本 语言 的 支持 、 映 射 - 化 简 编 程 和 
SQL 服务 集成 。 

6.2.4.2 微软 的 DryadLINQ 

DryadLINQ 建立 在 微软 的 Dryad 执行 框架 之 上 (参见 hitp://research. microsoft. com/ en — us/ 
projects/DryadLINQ/) o Dryad 能 执行 非 周期 性 任务 调度 ， 并 能 在 大 规模 服务 器 上 运行 。DryadLINQ 
的 目标 是 能 够 让 普通 的 程序 员 使 用 大 型 分 布 式 集群 计算 。 事 实 上 ， 正 如 其 名 ，DryadLINQ 连接 了 
两 个 重要 的 组 件 : Dryad 分 布 式 执行 引擎 和 . NET 语言 综合 查询 ( Language Integrated Query, 
LINQ). Æl 6-14 描述 了 使 用 DryadLINQ 时 的 执行 流 。 执 行 过 程 分 为 如 下 9 个 步骤 ， 

1. 一 个 . NET 用 户 应 用 运行 和 创建 一 个 DryadLINQ 表示 对 象 。 由 于 LINQ 的 延迟 评估 ， 表 达 
式 的 真正 执行 还 没有 开始 。 

2. 应 用 调用 ToDryadTable 触发 了 一 个 数据 并 行 的 执行 。 这 个 表达 对 象 传 给 了 DryadLINQ , 

3. DryadLINQ 编译 LINQ 表达 式 到 一 个 分 布 式 Dryad 执行 计划 。 表 达 式 分 解 成 子 表 达 式 ， 每 
个 都 在 单独 的 Dryad 顶点 运行 。 然 后 生成 远 端 Dryad 顶点 的 代码 和 静态 数据 ， 接 下 来 是 所 需要 数 
据 类 型 的 序列 化 代码 。 

4. DryadLINQ 调用 一 个 自 定义 Dryad 作业 管理 器 ， 用 来 管理 和 监视 相应 任务 的 执行 流 。 

5. 作业 管理 器 使 用 步骤 3 建立 的 计划 创建 作业 图 。 当 资源 可 用 的 时 候 ， 它 来 调度 和 产生 
顶点 。 361 

6. 每 个 Dryad 顶点 执行 一 个 与 顶点 相关 的 程序 。 

7. 当 Dryad 作业 成 功 完 成 ， 它 就 将 数据 写 人 输出 表格 。 

8. 作业 管理 器 处 理 结束 ， 它 把 控制 返回 给 DryadLINQ。DryadLINQ 创建 一 个 封装 有 执行 输出 
的 本 地 DryadTable 对 象 。 这 里 的 DryadTable 对 象 可 能 是 下 一 个 阶段 的 输入 。 

9. 控制 返回 给 用 户 应 用 。DryadTable 上 的 迭代 接口 允许 用 户 读 取 其 内 容 作 为 . NET WAR. 


人 ”客户 端 机 器 























图 6-14 DryadLINQ 上 的 LING 表达 式 运行 
i: 由 Yu 等 人 提供 ,OSDI 2008[27] 。 


并 不 是 所 有 程序 都 会 进行 完 所 有 9 个 步骤 。 有 些 程序 可 能 只 进行 少数 几 个 步 又。 基于 以 上 
的 描述 ，DryadLINQ 让 用 户 将 当前 的 编程 语言 (C#) 集成 到 一 个 编译 器 和 一 个 运行 时 运行 引擎 。 
下 面 的 例子 显示 了 怎样 在 DryadLINQ 中 编写 直方 图 。 

例 6.3 一 个 用 DryadLINQ 编写 的 直方 图 . 

我 们 显示 了 用 DryadLINQ 编写 的 直方 图 程序 ， 它 是 用 来 计算 文本 文件 中 每 个 单词 出 现 的 频 
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率 。 整 个 程序 如 下 所 示 ， 用 户 可 以 阅读 该 程序 来 熟悉 Dryad 编程 的 高 级 语言 。 对 于 更 多 的 细节 ， 
用 户 可 以 参考 Yu SAPO RE, E 


[Serializable] 
public struct Pair { 
string word; 


int count; 


public Pair(stringw, int c) 


{ 
word = Ww; 


count = c; 


} 


public override string ToString() { 
return word + ™:" + count. ToString(); 


} 
} 


public static IQueryable<Pair> Histogram( 
string directory, 
string filename, 


int k) 


DryadDataContext ddc = new DryadDataContext("file://" + directory); 
DryadTable<LineRecord> table = 


ddc.GetPartitionedTable<LineRecord>( filename); 


TQueryable<string> words = 

table.SelectMany(x => x.line.Split(" ').AsEnumerable()); 
TQueryable<IGrouping<string, string>> groups = words. GroupBy(x => x); 
IQueryable<Pair> counts = groups.Select(x => new Pair(x.Key, x.Count())); 
IQueryable<Pair> ordered = counts. OrderByDescending(x => x.Count); 
Idueryable<Pair> top = ordered. Take(k); 


return top; 


} 


$16.4 单词 计数 问题 直方 图 的 执行 举例 

这 个 程序 的 执行 流 和 MapReduce 框架 的 单词 计数 程序 非常 相似 。 表 6-6 显示 了 如 何在 样 例文 
本 输入 上 执行 这 个 程序 。 表 格 中 的 每 一 行 是 程序 中 每 条 代码 行 的 执行 结果 。 程 序 的 执行 会 涉及 
一 个 典型 的 DryadLINQ 所 有 的 步骤 。 


操作 符 
Table 
SelectMany 
GroupBy 
Select 
OrderByDescending 
Take (3) 


表 6-6 直方 图 的 执行 举例 
输 出 

“A line of words of wisdom” 
[ “A”, “line”, “of”, “words”, “of”, “wisdom” ] 
[ [ “A”], [ “line”], [ “of, “of? ], [ “words”], [ “wisdom” ] } 
[ | “A”, 1}, { “line”, 1}, | “of, 2}, | “words”, 1}, | “wisdom”, 1] ] 
[ | “of?, 2}, | “A”, 1}, | “line”, 1}, | “words”, 1}, | “wisdom”, 1} ] 
[ {| “of?, 2}, | “A”, 1}, | “line”, 1}] 


程序 员 不 用 担心 程序 的 并 行 执行 或 者 考虑 容错 能 力 。 伸 缩 性 、 可 靠 性 和 其 他 一 些 涉及 分 布 
式 计算 机 系统 的 困难 问题 ， 都 隐藏 在 DryadLINQ 框架 中 。 程 序 更 多 地 会 关注 应 用 程序 慑 辑 。 这 能 
大 大 地 降低 并 行 数据 处 理 编程 所 项 要 的 编程 技巧 。 E 

例 6.5 一 个 MapReduce WebVisCounter 程序 的 Hadoop 实现 

在 这 个 例子 中 ， 我 们 介绍 一 个 在 Hadoop 上 编码 的 实用 MapReduce 程序 。 这 个 样 例 程序 叫做 


WebVisCounter， 它 计算 了 用 户 使 用 一 个 特定 的 操作 系统 (例如 Windows XP 或 Linux Ubuntu) 来 


连接 或 访问 一 个 给 定 网 站 的 次 数 。 输 入 数据 如 下 所 示 。 一 个 典型 Web 服务 器 日 志文 件 的 一 行 有 8 
个 域 ， 由 制 表 符 或 空格 阳 开 ， 含义 如 下 所 示 : 
1. 176. 123. 143. 12 (连接 机 器 的 下 地 址 ) 
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2. 一 《一 个 分 隔 器 ) 

3. [10/Sep/2010 :01:11:30-1100] (WÈ HH ER, # AE DD:Mon:YYYY HH:MM:SS, -11， 
00 是 格林 威 治标 准时 间 的 偏 移 ) 

4. "GET /gse/apply/int_research_app_form. pdf HTTP/1.0" (GET 使 用 HTTP/1.0 协议 请 求 文 
件 ，/gse/apply/int_research_app_form. pdf) 

5.200 (RAG, 表示 用 户 的 请 求 成 功 ) 

6. 1363148 (传输 位 的 数量 ) 

7. http://www. eng. usyd. edu. au 〔〈 用 户 在 到 达 服 务 器 之 前 从 此 开始 ) 

8. " Mozilla/4.7[en]( WinXp; U)" (浏览 器 用 来 取得 网 址 、 浏 览 器 的 版 本 、 语 言 版 本 和 操作 
系统 ) 

因为 输出 是 用 户 使 用 特定 操作 系统 来 连接 到 一 个 给 定 网 站 的 次 数 ，Map 函数 分 析 了 每 一 行 
得 到 所 使 用 的 操作 系统 类 型 (如 WinXP) 作为 一 个 key， 并 给 它 分 配 一 个 值 (在 这 个 例子 中 是 
1)。 反 过 来 ，Reduce 函数 对 每 个 唯一 key (在 这 个 例子 中 是 操作 系统 类 型 ) 的 1 WKRERM. K 
6-15 描述 了 WebVisCounter 程序 的 相关 数据 流 。 a 

Map Partitioning 
行 偏 移 M1 MI Mi 排序 和 分 组 


(0, 77.241.136.xx —— [12/Jan/2010...] ... Macintosh; U) 
(207, 58.87.64.xx -- ([12/Jan/2010...] ... WinXP: U) 
(290, 78.41.226.xx -- [10/Jan/2010...] ... Win98; U) 
(310, 213.163.90.xx -- [29/Dec/2009...] ... WinXP; U) 






(Macintosh, 1) 
(WinXP, 1) 

(Win98, 1) - 
(WinXP, 1) a , (Macintosh, 1) Reduce 












(Macintosh, 1) 
M2 M2 (Macintosh, 1) (Macintosh, 1,1,1, | (Macintosh, 1,1,1, | 1,1,1) (Macintosh, 4) | 4) 
(Macintosh, 1) (Macintosh, 1) 
(Macintosh, 1) 


(320, 110.5.116.xx —~ [20/Nov/2009...] … WinXP; U} 
(380, 62.106.0.xx -- [20/Nov/2009...] … Macintosh; U) 
(420, 116.212.64.xx -- [20/Nov/2009...] ... Win98; U) 
540, 1212.80.0.xx ~— [19/Nov/2009...] ... Macintosh; U) 
(459, 80.82.96.xx —— [19/Nov/2009...] … WinXP; U) 


(WinXP, 1) 
(Macintosh, 1) 






(Win98, 1) 
(Macintosh, 1) 
(WinXP, 1) 






(Win98, 1,1,1) (Win98, 3) 
(WinXP, 1,1,1,1,1) |] (WinXP, 5) 





M3 
(612, 77.236.192.xx —— [18/Nov/2009...] ... WinXP; U) | | (WinXP, 1) (Macintosh, 1) 
(682, 77.230.60.xx — [17/Nov/2009...] ... Macintosh; U) (Macintosh, 1) (WinXP, 1) 
(710, 216.55.163.xx —— [17/Nov/2009...] … Win98; U) (Wing, 1) (Win98, 1) 
映射 服务 器 的 本 地 磁盘 化 简 服务 器 的 本 地 磁盘 


图 6-15 WebVisCounter 程序 运行 的 数据 流 


6.2.5 Sawzall 和 Pig Latin 高 级 语言 


Sawzall 是 建立 在 谷歌 的 MapReduce 框架 之 上 的 一 种 高 级 语言 [1 。Sawzall 是 一 种 脚本 语言 ， 
能 进行 并 行 数据 处 理 。 和 MapReduce 一 样 ，Sawzall 能 对 大 规模 数据 集 ， 甚 至 对 整个 互联 网 上 收 
集 的 数据 规模 进行 分 布 式 、 容 错 处 理 。Sawzall 是 由 Rob Pike 开发 的 ， 其 最 初 的 目标 是 处 理 谷歌 
日 志文 件 。 在 这 个 方面 ， 它 已 经 取得 了 巨大 的 成 功 ， 并 且 使 得 大 批 企业 变 成 了 交互 式 进程 ， 这 样 
使 用 这 些 数据 的 新 方法 可 以 被 开发 。 图 6-16 描述 了 Sawzall 框架 的 数据 流 和 处 理 过 程 的 整个 模 
型 。Sawzall 最 近 作 为 一 个 开源 项 目 被 发 布 。 

首先 ， 数据 用 现场 处 理 脚 本 在 本 地 被 分 块 和 处 理 。 本 地 数据 会 被 过 滤 ， 以 得 到 必需 的 信息 。 
然后 ， 使 用 整合 器 根据 已 发 送 的 数据 来 获取 最 后 的 结果 。 很 多 谷歌 的 应 用 都 符合 这 个 模型 。 用 户 
使 用 Sawzall 脚本 语言 编写 其 应 用 。Sawzall 运行 时 引擎 将 相应 的 脚本 翻译 为 能 够 运行 在 很 多 节点 
上 的 MapReduce 程序 。Sawzall 程序 能 够 自动 利用 集群 计算 的 威力 ， 也 能 够 从 宛 余 服务 器 上 获取 
可 靠 性 。 
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发 散 的 数据 排序 后 的 结果 


图 6-16 Sawzall 的 过 滤 、 整 合 和 校对 的 整个 流 


例 6.6 Sawzall 上 的 文件 摘要 程序 

这 里 是 一 个 使 用 Sawzall 来 在 集群 上 进行 数据 处 理 的 简单 例子 (该 例子 来 自 文献 [31] 的 
Sawzall 论文 ) 。 假 定 我 们 需要 处 理 一 系列 文件 ， 每 个 文件 都 有 记录 ， 并 且 每 个 记录 都 包含 一 个 浮 
点 数 。 我 们 想 要 计算 记录 的 数量 、 总 值 和 平方 和 。 相 关 代 码 如 下 ; 

count: table sum of int; 

total: table sum of float; 

sum_of_squares: table sum of float; 

x: float = input; 

emit count <- 1; 


emit total <- x; 
emit sum_of_squares <- x * x; 


前 三 行 声明 了 整合 器 ;count 、total 和 sum_of_squares, table 是 一 个 关键 字 ， 定 义 了 整 
合 器 类 型 。 这 些 特 殊 表 格 是 sum 表格 ， 它 们 会 自动 对 发 送 给 它们 的 值 进 行 求 和 。 对 于 每 个 输入 记 
录 ，Sawzall 初始 化 预定 义 的 变量 输入 为 输入 的 未 解释 字 节 串 。x:float = input; 这 一 行将 输入 转 
换 成 一 个 浮 点 型 数据 ， 并 存储 在 本 地 变量 x 中 。 三 个 em 让 语句 将 中 间 值 发 送 给 整合 器 。 人 们 可 
以 将 Sawzall 脚本 转化 成 MapReduce 程序 ， 并 运行 在 多 服务 器 上 。 a 

Pig Latin 是 雅虎 开发 的 一 种 高 级 数据 流 语言 (5 ， 并 且 已 经 在 Apache Pig M H Le7] 中 Hadoop 之 
上 实现 了 。Pig Latin、Sawzall 和 DryadLINQ 是 在 MapReduce 及 其 扩展 之 上 构建 语言 的 三 种 不 同方 
法 。 它 们 之 间 的 比较 见 表 6-7。 





表 6-7 高 级 数据 分 析 语 言 的 比较 
















































































Sawzall Pig Latin DryadLINQ 
提出 者 谷歌 雅虎 Microsoft 
数据 模型 谷歌 协议 缓存 或 基本 原子 ， 元 组 ， 包 ， 了 映射 分 区 文件 
类 型 静态 的 动态 的 静态 的 
种 类 解释 型 编译 型 编译 型 
编程 风格 命令 式 过 程 的 ; 说 明 步 又 序列 命令 和 说 明 
和 SQL 相似 程度 最 少 中 等 非常 多 
可 扩展 性 (用 户 定义 功能 ) | 没有 有 有 
控制 结构 有 没有 有 
执行 模型 记录 操作 + 固定 集群 化 MapReduce 操作 序列 有 向 无 环 图 
目标 运行 时 谷歌 MapReduce Hadoop (Pig) Dryad 


DryadLINQ 是 直接 在 SQL 上 建立 的 ， 而 其 他 两 种 语言 是 NOSQL 的 继承 ， 尽 管 Pig Latin 支持 主 
要 SQL 架构 ， 包 括 Join， 而 Sawzall 则 不 支持 。 每 种 语言 自动 实现 并 行 性 ， 因 此 只 需要 考虑 单个 元 
素 的 操作 ， 然 后 调用 支持 的 共同 操作 。 当 然 这 是 可 能 的 ， 因 为 所 需要 的 并 行 可 以 被 独立 的 任务 清楚 
地 实现 ,“ 副 作用 ”只 是 出 现在 所 支持 的 共同 操作 上 。 这 是 一 个 重要 的 实现 并 行 化 的 通用 方法 ， 并 且 
很 久 以 前 就 在 高 性 能 Fortran! ™ 上 得 到 了 体现 。 在 文献 [@，70] 中 关于 Pig 和 Pig Latin 有 一 些 讨论 ， 这 
里 我 们 总 结 了 语言 特性 。 表 6-8 列 出 了 Pig Latin 的 4 种 数据 类 型 ， 表 6-9 列 出 了 14 个 操作 符 。 


第 6 章 云 编程 和 软件 环境 257 


表 6-8 Pig Latin 数据 类 型 























数据 类 型 mw OR 举 例 
原子 简单 原子 值 ‘Clouds’ 
元 组 任意 Pig Latin 类 型 的 字段 序列 ('Clouds’, ’Grids’) 
(‘Ctouds’, ‘Grids’) 
包 元 组 的 集合 ， 每 个 包 成 员 都 允许 不 同 的 模式 (‘Clouds’, (‘laaS’, PaaS’) 
mas ， “(azure } 
Microsoft’ 一 , ， 
映射 和 一 组 键 值 相关 的 数据 项 的 集合 。 键 值 是 原子 数据 包 [ { Azure’) ] 
‘Redhat’ — ‘Linux’ 





# 6-9 Pig Latin 操作 符 


































































































E e | 描 g 
LOAD 从 文件 系统 中 读 取 数据 
STORE 将 数据 写 人 文件 系统 
FOREACH GENERATE 为 每 个 记录 应 用 一 个 表达 式 ， 输 出 一 个 或 多 个 记录 
FILTER 申请 一 个 谓词 ， 并 将 返回 值 不 为 真 的 记录 删除 
GROUP/COGROUP 从 一 个 或 多 个 输入 中 选 出 有 相同 键 值 的 记录 
JOIN 基于 一 个 键 值 来 连接 两 个 或 更 多 的 输入 
CROSS 对 于 两 个 或 多 个 输入 做 又 积 
UNION 合并 两 个 或 更 多 数据 集 
SPLIT 基于 过 滤 条 件 将 数据 分 发 成 两 个 或 更 多 的 集合 
ORDER 基于 一 个 键 值 对 记录 排序 
DISTINCT 删除 重复 元 组 
STREAM = 通过 一 个 用 户 提供 的 二 进 制 来 发 送 所 有 记录 
DUMP 将 输出 写 到 标准 输出 设备 
LIMIT 限制 记录 的 数量 





例 6.7 使 用 Sawzall 和 Pig Latin 的 并 行 编程 
首先 我 们 使 用 命令 读 取 数据 ， 例如: 


Quertes = LOAD 'filewithdata.txt' USING myUDF() AS (userId, queryString, timestamp); 
LOAD 命令 返回 一 个 名 顶 到 Queries 包 。myUDF() 是 一 个 可 选 的 自 定义 读 取 器 ， 是 用 户 自 定 


义 函 数 的 一 个 例子 。AS 语法 定义 了 组 成 Queries 包 的 元 组 模式 。 现 在 数据 可 以 由 命令 来 处 理 ， 
例如 ; 

Expanded_queries = FOREACH queries GENERATE userID, expandQueryUDF( queryString); 

该 例子 映射 了 queries 中 的 每 个 元 组 ， 这 由 用 户 自 定义 函数 expandQueryUDF 来 决定 。 


FOREACH 运行 了 包 中 所 有 的 元 组 。 另 外 ， 用 户 可 以 使 用 FILTER 根据 userID 是 和 否 等 于 字符 囊 
Alice 来 删除 所 有 元 组 ， 如 下 例 所 示 : 


Real_querfes = FILTER queries BY userID neq 'Alice'; 


Pig Latin 使 用 COGROUP 提供 了 SQL JOIN 的 等 效 功能 ， 例 如 ; 


Grouped_data = COGROUP results BY queryString, revenue BY queryString; 


其 中 results 和 revenue 是 元 组 包 (来 自 LOAD 或 加 载 数 据 的 处 理 ) 


Results: queryString, url, position) 
Revenue: (queryString, adSlot, amount) 
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从 COGROUP 并 不 产生 一 系列 元 组 CqueryString, url, position, adSlot, amount), M Æ 
一 个 包含 三 个 字段 的 元 组 的 意义 上 说 ，COGROUP 比 JOIN 更 通用 。 第 一 个 字段 是 queryString, 
第 二 个 字段 是 来 自 Results 的 所 有 元 组 ， 带 有 queryString 的 值 ， 第 三 个 字段 是 来 自 Revenue 
的 所 有 元 组 ， 带 有 querystring 的 值 。FLATTEN 能 将 COGROUP 的 结果 映射 到 SQL Join 
(queryString, url, position, adSlot, amount) 语法 。 E 

Pig Latin 操作 符 按照 数据 流 管道 中 列 出 的 顺序 来 执行 。 这 和 说 明 性 SQL 形成 对 比 ， 只 需要 指 
定 需 要 做 “什么 ”; 而 不 是 怎么 做 。Pig Latin 支持 用 户 自 定义 函数 作为 语言 中 第 一 类 操作 ， 如 上 
面 举例 的 代码 ， 可 能 是 超过 SQL 的 一 个 优势 。 根 据 用 户 的 偏好 ， 用 户 自 定义 函数 能 放 于 Load, 
Store, Group, Filter 和 Foreach 操作 符 中 。 注 意 ，Pig Latin 允许 了 丰富 的 数据 流 操作 符 ， 这 
很 类 似 于 5. 5. 5 节 中 介绍 的 一 个 工作 流 的 脚本 方法 。Pig! Apache m A 把 Pig Latin 映射 到 一 组 
Hadoop 实现 的 MapReduce 操作 序列 。 
6.2.6 并 行 和 分 布 式 系统 的 映射 应 用 

过 去 ，Fox 从 5 个 应 用 体系 结构 的 角度 讨论 了 不 同 硬件 和 软件 的 映射 应 用 程序 ”1 。 最 初 的 5 
个 类 别 在 表 6-10 中 已 经 列 出 来 ， 紧 跟着 的 第 6 类 描述 了 数据 密集 计算 "”“”: 。 最 初 的 分 类 大 体 上 
描述 了 模拟 ， 它 们 并 不 是 直接 针对 数据 分 析 的 。 简 略 概括 并 解释 新 的 类 别 还 是 很 有 好 处 的 。 类 别 
1 在 20 年 前 比较 风行 ， 但 现在 已 经 不 重要 了 。 它 描述 了 由 硬件 控制 的 应 用 ， 可 以 被 锁 级 (lock- 
.step) 操作 并 行 化 。 


表 6-10 ”并行 和 分 布 式 系 统 的 应 用 分 类 





























类 Sil 分 类 描 述 - 机 器 体系 结构 
1 同步 如 同 SIMD 体系 结构 ， 问 题 的 分 类 可 以 由 指令 层 锁 级 操作 来 实现 | SIMD 
| 宽 同步 (BSP 这 些 问题 显示 了 迭代 计算 - 通信 策略 ， 每 个 CPU 都 有 与 一 个 通 MPP 上 的 MIMD 
2 或 块 同步 处 理 ) 信步 骤 同 步 的 独立 计算 CPR) 操作 。 这 类 问题 包含 了 很 多 成 功 | (大 规模 并 行 处 理 
° 的 MPI 应 用 ， 包 括 偏 微分 方程 的 求解 和 质点 动力 学 应 用 器 ) 
例子 是 计算 象棋 和 整数 规划 ; 组 合 搜索 通常 是 由 动态 线程 所 支 
3 异步 持 的 。 这 在 科学 计算 中 算 不 上 重要 ,但 是 这 是 操作 系统 的 核心 ，| 共享 内 存 
并 发 出 现在 用 户 应 用 程序 ( 比如 Microsoft Word) 中 
每 个 组 件 都 是 独立 的 。 在 1988 年 ，Fox 估计 此 项 占 整个 应 用 程 
4 乐意 并 行 序 的 20% 。 但 是 这 个 比例 一 直 在 增加 ， 这 是 因为 网 格 和 数据 分 析 | 网 格 移 至 云 
应 用 软件 的 使 用 ， 比 如 粒子 物理 学 的 大 规模 强 子 对 撞 器 分 析 
这 里 有 第 1 ~4 类 和 第 6 类 的 粗 粒度 《异步 或 数据 流 ) AA. 
5 元 问题 个 领域 的 重要 性 也 在 增加 ， 得 到 网 格 的 很 好 支持 ， 由 3.5 节 的 工 | 集群 的 网 格 
作 流 描述 l 
ayy. 一 个 
ruven 到 文件 (数据 库 ) 的 操作 ， 有 三 个 子 senama a 
6 | MapReduces+ | 6a) 只 有 乐意 并 行 映射 (类似 于 第 4 类 ) Moped 
(Twister) 6b) 映射 然后 化 简 b) Mar Reduce 
6c) 迭代 “映射 然后 化 简 ”( 当前 技术 的 扩展 ， 支 持 线性 代数 和 数 T p 
据 控 损 ) c) Twister 











这 样 的 配置 将 运行 在 单 指令 多 数据 (Single-Instruction and Multiple-Data, SIMD) 机 器 上 ， 而 
第 2 类 现在 显得 尤为 重要 ， 也 就 相当 于 运行 在 多 指令 多 数据 (Multiple Instruction Multiple Data, 
MIMD) 机 器 上 的 单一 程序 多 重 数据 (Single-Program and Multiple Data, SPMD) 模型 。 这 里 每 个 
分 解 后 的 单元 执行 相同 的 程序 ， 但 是 不 是 在 任意 时 候 都 必须 执行 相同 的 指令 。 第 1 类 相当 于 常规 
问题 ， 而 第 2 类 包括 了 动态 的 不 规律 问题 ， 包 括 求解 偏 微分 方程 式 或 者 质点 动力 学 的 复杂 几何 。 
注意 ， 同 步 问题 依然 存在 ， 但 它们 是 以 SPMD 模型 运行 在 MIMD 机 器 上 。 还 要 注意 第 2 类 包括 了 
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计算 -通信 阶段 ， 计 算 通 过 通信 来 实现 同步 。 不 需要 辅助 的 同步 。 

第 3 类 包括 了 异步 互动 对 象 ， 并 且 通 常 是 一 些 人 们 关于 一 个 典型 并 行 问题 的 观点 。 它 可 能 的 
确 描述 了 在 一 个 现代 操作 系统 中 的 并 发 线程 ， 以 及 一 些 重要 的 应 用 程序 ， 比 如 事件 驱动 模拟 和 
在 计算 机 游戏 与 图 形 算法 中 的 搜索 区 域 。 共 享 内 存 是 很 自然 的 ， 因 为 执行 动态 同步 化 常常 需要 
低 延 迟 。 在 过 去 这 一 点 并 不 是 很 清楚 ， 但 是 现在 看 来 这 个 类 别 在 重要 的 大 规模 并 行 问题 中 不 是 
很 普遍 。 

第 4 类 在 算法 上 是 最 简单 的 ， 它 并 不 和 并 行 组 件 相连 接 。 然 而 ， 从 最 初 1988 年 分 析 看 来 ， 
这 个 类 别 可 能 已 经 变 得 越 来 越 重要 ， 因 为 估计 它 将 占 20% 的 并 行 计算 。 网 格 和 云 在 这 类 上 都 很 
自然 ， 它 们 不 需要 在 不 同 节点 之 间 进 行 高 性 能 通信 。 

第 5 类 元 问题 指 的 是 不 同 “ 原 子 ”问题 的 粗 粒度 连接 ， 这 完全 包含 在 5.5 节 中 。 很 显然 ， 这 
个 领域 非常 普遍 ， 并 且 会 变 得 更 为 重要 。 回 想 5.5 节 的 重要 观察 ， 我 们 使 用 了 一 个 两 层 编程 模 
型 ， 这 个 模型 有 一 个 指定 样式 的 元 问题 (工作 流 ) 连接 ， 以 及 采用 本 章 提 到 的 解决 方法 的 组 件 
问题 。 网 格 或 者 云 都 适用 于 元 问题 ， 因 为 粗 粒 度 分 解 通常 并 不 需要 很 高 的 性 能 。 

如 前 所 述 ， 我 们 增加 了 第 6 类 来 包括 数据 密集 型 应 用 ， 这 是 由 MapReduce 作为 一 个 新 的 编程 
模型 所 提出 的 。 我 们 称 这 个 类 为 MapReduce ++ ， 它 有 三 个 子 类 :“ 只 映射 ”应 用 程序 类 似 于 第 4 
类 的 乐意 并 行 “”“”“ ;经 典 MapReduce， 带 有 文件 到 文件 操作 ， 包 括 并 行 映射 和 接 下 来 的 并 行 
化 简 操作 ; 6. 2. 2 节 介绍 的 捕获 扩展 版 本 的 MapReduce 子 类 。 注 意 ， 第 6 类 是 第 2 类 和 第 4 类 的 
子 集 ， 增 加 了 数据 的 读 和 写 ， 以 及 与 数据 分 析 相 比特 殊 化 的 宽 同 步 结 构 。 这 个 比较 在 表 6-11 中 
有 更 详细 的 介绍 。 


表 6-11 MapReduce + + 子 类 别 和 MPI 使 用 的 宽 同 步 类 型 的 比较 





























只 A 射 经 典 MapReduce 迭代 MapReduce 宽 同 步 
给 输入 输入 
4 4 4 4 Yeap ¥ 4 mapo X 
OO ee 
J gm0 J Ar yreduce() reduce() 
输出 vy + 
输出 输出 
。 文档 转换 (比如 ,PDF | 。 高 能 物理 学 (HEP) 直 | 。 期 望 最 大 化 算法 。 很 多 MPI 科学 应 用 ， 利 
一 HTML) 方 图 。 线性 代数 用 包括 本 地 交互 的 多 种 
。 密码 学 中 的 强力 搜索 © 分 布 式 搜索 。 数据 挖 据 ， 包 括 通信 架构 
。 参数 清除 © 分 布 式 排序 。 集群 化 。 求解 微分 方程 和 带 有 短 
。 基因 组 合 。 信息 检索 。 KK- 均 值 程 力 的 质点 动力 学 
© PolarGrid Matlab 数据 分 | 。 序列 的 之 对 距离 的 计算 。 确定 性 退火 集群 化 
析 (www. polargrid. org) (BLAST) 。 多 维 伸缩 (MDS) 
+— MapReduce 域 和 迁 代 扩展 一 MPI 


6.3 GAE 的 编程 支持 

4.4.2 节 在 图 4-20 中 介绍 了 GAE 基础 设施 。 本 节 我 们 会 描述 由 GAE 支持 的 编程 模型 。GAE 
平台 的 接 人 链 路 在 第 4 章 中 已 经 给 出 。 
6.3.1 GAE 编程 

已 经 有 一 些 网 络 资源 (例如 http://code. google. com/appengine/)、 特 定 书 籍 和 文章 ( Bi 
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如 http://www. byteonic. com/2009/overview-of-java-support-in-google-app-engine/) 在 讨论 如 何 
GAE 编程 。 图 6-17 总 结 了 对 于 两 种 支持 语言 Java 和 Python, GAE 编程 环境 的 一 些 主要 特 
性 。 客 户 端 环境 包括 一 个 Java 的 Eclipse 插件 ， 人 允许 你 在 本 地 机 器 上 调试 自己 的 GAE, XF 
Java Web 应 用 程序 开发 者 来 说 ， 还 有 一 个 GWT (谷歌 Web TAR) 可 用 。 开 发 者 可 以 使 用 
它 ， 或 其 他 任何 借助 于 基于 JVM 的 解释 器 或 编译 器 的 语言 ， 如 JavaScript 或 Ruby, Python 会 
经 常 和 Django 或 者 CherryPy 之 类 的 框架 一 起 使 用 , 但 是 谷歌 也 提供 一 个 内 置 的 webapp 
Python 环境 。 


谷歌 企业 应 用 





数据 存储 





你 的 防火 墙 


谷歌 应 用 SDC 


安全 内 联网 


关于 存储 和 读 取 数据 ， 有 一 些 很 强大 的 构造 。 数 据 存储 是 一 个 NOSQL 数据 管理 系统 ， 实 体 
的 大 小 至 多 是 1MB， 由 一 组 无 模式 的 属性 来 标记 。 查 询 能 够 检索 一 个 给 定 类 型 的 实体 ， 这 是 根 
据 属 性 值 来 过 滤 和 排序 的 。Java 提供 一 个 Java 数据 对 象 (Java Data Object, JDO) 和 JPA (Java 
Persistence API) 接口 ， 是 由 开源 Data Nucleus Access 平台 来 实现 ， 而 Python 有 一 个 类 似 SQL 的 查 
询 语言 称 为 CQL。 数 据 存储 非常 一 致 ， 它 使 用 的 是 最 优化 并 发 控制 。 

如 果 其 他 进程 试图 同时 更 新 同一 个 实体 ,那么 这 个 实体 的 更 新 是 发 生 在 一 个 事务 处 理 中 ， 
并 且 重 试 固定 的 次 数 。 你 的 应 用 程序 可 以 在 单个 事务 处 理 中 执行 多 数据 存储 操作 ， 结 果 要 么 一- 
起 成 功 ， 要 么 一 起 失败 。 数 据 存储 使 用 “实体 群 组 ”实现 了 贯穿 其 分 布 式 网 络 的 事务 。 事 务 在 
单个 群 组 中 操作 实体 。 为 了 有 效 地 运行 事务 ， 这 些 同 一 群 组 的 实体 被 存储 在 一 起 。 当 实体 创建 的 
时 候 ， 你 的 GAE 应 用 可 以 把 实体 分 配给 群 组 。 通 过 使 用 memcache 的 内 存 高 速 缓存， 数据 存储 的 
性 能 可 以 提高 ， 它 也 可 以 在 数据 存储 中 被 独立 使 用 。 

最 近 谷 歌 增加 了 pioistore， 适 用 于 保存 大 文件 ， 因 为 它 的 文档 大 小 限制 在 2GB。 有 几 种 机 制 
可 以 用 来 和 外 部 资源 进行 合作 。 谷 歌 安 全 数据 连接 (Secure Data Connection, SDC) 能 够 和 互联 
网 建立 隧道 连通 ， 并 能 将 内 联网 和 一 个 外 部 GAE 应 用 相连 。URL Fetch 操作 保障 了 应 用 程序 能 够 





图 6-17 GAE 编程 环境 


使 用 HTTP 和 HTTPS 请 求 获取 资源 ， 并 与 互联 网 上 的 其 他 主机 进行 通信 。 有 一 个 专门 的 邮件 机 
372 


制 ， 从 你 的 GAE 应 用 程序 中 发 送 电子 邮件 。 
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应 用 程序 能 够 使 用 GAE URL 获取 服务 访问 互联 网 上 的 资源 ， 比 如 Web 服务 或 者 其 他 数据 。 
URL 获取 服务 使 用 相同 的 高 速 谷歌 基础 设施 来 检索 Web 资源 ， 这 些 谷歌 基础 设施 是 为 谷歌 的 很 
多 其 他 产品 来 检索 网 页 的 。 还 有 许多 谷歌 “企业 ”设施 ， 包括 地 图 、 网 站 、 群 组 、 日 程 、 文 档 
和 YouTube 等 。 这 些 支 持 谷歌 数据 API， 它 能 在 CAE 内 部 使 用 。 

一 个 应 用 程序 可 以 使 用 谷歌 账户 来 进行 用 户 认 证 。 谷 歌 账户 处 理 用 户 账户 的 创建 和 登录 ， 
如 果 一 个 用 户 已 经 有 了 谷歌 账户 (如 一 个 Gmail 账户 ) ， 他 就 能 用 这 个 账户 来 使 用 应 用 程序 。 
GAE 使 用 一 个 专用 的 Images 服务 来 处 理 图 片 数 据 ， 能 够 调整 大 小 、 旋 转 、 翻 转 、 裁 前 和 增强 
图 片 。 一 个 应 用 程序 能 够 不 响应 Web 服务 来 执行 任务 。 你 的 应 用 程序 能 够 执行 一 个 你 配置 的 
调度 表 上 的 任务 ， 比 如 以 每 天 或 每 小 时 的 标准 ， 使 用 由 Cron 服务 处 理 的 “时 钟 守护 作业 ” 
(cron job) 。 

另外 ， 应 用 程序 能 执行 由 应 用 程序 本 身 加 入 到 一 个 队列 中 的 任务 ， 比 如 处 理 请 求 时 创建 的 

一 个 后 台 任 务 。 配 置 一 个 GAE 应 用 消耗 的 资源 有 一 定 上 限 或 者 固定 限额 。 有 了 固定 限额 ，GAE 
保证 应 用 程序 不 会 超出 预算 ， 其 他 运行 在 GAE 上 的 应 用 程序 也 不 会 影响 应 用 的 性 能 。 特 别 地 ， 
GAE 按照 某 个 限额 来 使 用 是 免费 的 。 

6.3.2 ”谷歌 文件 系统 (GFS) 

GFS 主要 是 为 谷歌 搜索 引擎 的 基础 存储 服务 建立 的 。 因 为 网 络 上 抓 取 和 保存 的 数据 规 
模 非 常 大 ， 谷 歌 需要 一 个 分 布 式 文件 系统 ， 在 廉价 、 不 可 靠 的 计算 机 上 存储 大 量 的 元 余数 
据 。 没 有 一 个 传统 的 分 布 式 文件 系统 能 够 提供 这 样 的 功能 ， 并 存储 如 此 大 规模 的 数据 。 另 
外 ，GFS 是 为 谷歌 应 用 程序 设计 的 ， 并 且 谷 歌 应 用 程序 是 为 谷歌 而 建立 。 在 传统 的 文件 系 
统 设 计 中 ， 这 种 观念 不 会 有 吸引 力 ， 因 为 在 应 用 程序 和 文件 系统 之 间 应 该 有 一 个 清晰 的 接 
口 ， 比 如 POSIX 接口 。 

AJLA 关于 GFS 的 假设 。 其 中 一 个 与 云 计 算 硬件 基础 设施 的 特性 有 关 (如 高 组 件 故 障 率 )。 
因为 服务 器 是 由 廉价 的 商业 组 件 构成 的 ， 所 以 一 直 会 有 并 发 故障 ， 这 是 很 常见 的 现象 。 另 一 个 关 
系 到 GFS 中 文件 的 大 小 。GFS 会 拥有 大 量 的 大 规模 文件 ， 每 个 文件 可 在 100MB 以 上 ， 数 GB 的 文 
件 也 很 常见 。 因 此 ， 谷 歌 选 择 文件 数据 块 大 小 为 64MB ， 而 不 是 典型 的 传统 文件 系统 中 的 4KB。 
谷歌 应 用 程序 的 VO 模式 也 很 特别 。 文 件 一 般 只 写 人 一 次 ， 写 操作 一 般 是 附加 在 文件 结尾 的 数据 
块 上 。 多 个 附加 操作 可 能 会 同时 进行 。 会 有 大 量 的 大 规模 流 读 取 以 及 很 少量 的 随机 存 取 。 至 于 大 
规模 流 读 了 到， 高 持续 吞吐 量 比 低 延迟 来 的 更 为 重要 。 

因此 ， 谷歌 关于 GFS 的 设计 做 出 了 一 些 特殊 决策 。 如 前 所 述 ， 选 择 64MB 块 大 小 。 使 用 复制 
来 达到 可 靠 性 〈 比 如， 每 个 大 块 或 者 一 个 文件 的 数据 块 在 多 于 三 个 块 服务 器 上 进行 复制 ) 。 单 个 
主 服务 器 可 以 协调 访问 以 及 保管 元 数据 。 这 个 决策 简化 了 整个 集群 的 设计 和 管理 。 开 发 者 不 需 
要 考虑 许多 分 布 式 系统 中 的 难题 ， 例 如 分 布 式 一 致 。GFS 中 没有 数据 高 速 缓存 ， 因 为 大 规模 流 读 
取 和 写 入 既 不 代表 时 间 也 不 代表 空间 的 近邻 性 。GFS 提供 了 相似 但 不 相同 的 POSIX 文件 系统 访 
问 接口 。 其 中 明显 的 区 别 是 应 用 程序 甚至 能 够 看 到 文件 块 的 物理 位 置 。 这 样 的 模式 可 以 提高 上 
层 应 用 程序 。 自 定义 API 能 够 简化 问题 ， 并 聚焦 在 谷歌 应 用 上 。 自 定义 API 加 入 了 快照 和 记录 附 GB] 
加 操作 ， 以 利于 建立 谷歌 应 用 程序 。 

图 6-18 描述 了 GFS 体系 结构 。 很 明显 在 整个 集群 上 只 有 一 个 主 服务 器 。 其 他 节点 是 作为 块 
服务 器 来 存储 数据 ， 而 单个 主 服务 器 用 来 存储 元 数据 。 文 件 系 统 命名 空间 和 锁定 工具 是 由 主机 
来 管理 的 。 主 机 周期 性 地 和 块 服务 器 进行 通信 ， 来 收集 各 种 管理 信息 以 及 向 块 服务 器 发 送 指令 ， 
来 完成 负载 均衡 或 者 故障 修复 之 类 的 工作 。 
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GFS 主 服务 器 了 










Geis, i) [REM / 







给 块 服务 器 的 指令 
块 服务 器 状态 


CGFS 块 服务 器 GFS 块 服务 器 
Linux 文 件 系统 Linux 文 件 系 统 


C) | 
图 6-18 GFS 体系 结构 







( 块 句柄 ， 字 节 范 围 ) 







块 数据 


注 : W S. Ghemawat 等 人 提供 [53] 。 


主机 有 足够 的 信息 来 保持 整个 集群 在 一 个 良好 的 状态 。 使 用 了 单个 的 主机 ， 就 能 避免 很 多 
复杂 的 分 布 式 计算 ， 系 统 的 设计 也 能 简化 。 然 而 这 样 的 设计 有 一 个 潜在 的 缺点 ， 因 为 单个 GFS 
主 服务 器 可 能 会 成 为 性 能 瓶 诺 和 唯一 故障 点 。 为 了 减轻 这 个 缺点 ,谷歌 使 用 一 个 影子 主 服 务 器 ， 
复制 了 主 服务 器 上 的 所 有 数据 。 这 个 设计 也 能 保证 在 客户 端 和 块 服务 器 之 间 的 所 有 数据 操作 都 
能 直接 执行 。 控 制 消息 在 主 服务 器 和 客户 端 之 间 传输 ， 并 能 缓存 起 来 以 备 以 后 使 用 。 使 用 市 场 上 
服务 器 的 现 有 性 能 ， 单 个 主 服务 器 能 处 理 一 个 大 小 超过 1 000 个 节点 的 集群 。 

图 6-19 描述 了 CFS 中 的 数据 变异 〈 写 和 或 增加 操 

374] 作 ) 。 在 所 有 副本 中 都 必须 创建 数据 块 。 目 的 是 尽量 减 
少 主机 的 参与 。 变 异 采 用 如 下 的 步骤 : 

1. 客户 端 询 问 主 机 哪个 块 服务 器 掌握 了 当前 发 行 版 
本 的 块 和 其 他 副本 的 位 置 。 如 果 没 有 发 行 版 本 ， 那 么 主 
机 授权 给 一 个 它 挑选 的 副本 (没有 显示 )。 

2, 主机 回复 了 主 版 本 的 身份 和 其 他 〈 第 二 级 ) 副 
本 的 位 置 。 客 户 端 缓存 这 个 数据 以 备 将 来 的 变异 。 只 有 
当主 版 本 变 的 不 可 达 或 回复 它 不 再 拥有 一 个 发 行 版 时 ， 
它 才 需要 重新 和 主机 联系 。 

3. 客户 端 将 数据 推送 给 所 有 副本 。 客 户 端 可 以 按 任 
意 顺 序 推送 数据 。 每 个 块 服务 器 将 数据 存储 在 一 个 内 部 
LRU 缓存 区 ， 直 到 数据 被 使 用 了 或 失效 了 。 通 过 将 数据 
流 和 控制 流 解 耦合 ， 对 基于 网 络 拓扑 的 高 代价 数据 流 进 行 调度 ， 我 们 就 可 以 提高 性 能 ， 而 不 用 考 
上 处 哪个 块 服务 器 是 主要 的 。 

4. 一 旦 所 有 副本 都 确认 接收 数据 ， 客 户 端 就 将 写 请 求 送 至 主要 版 本 。 该 请 求 区 分 出 之 前 送 
至 所 有 副本 的 数据 。 主 要 版 本 分 配 连续 序列 号 至 它 收 到 的 所 有 变异 ， 这 些 变异 可 能 是 来 源 于 多 
个 客户 端 ， 并 提供 了 必要 的 序列 化 。 它 按照 顺序 将 变异 应 用 到 它 自 己 的 本 地 状态 。 

5. 主要 版 本 转发 写 请 求 到 对 所 有 二 级 副本 。 每 个 二 级 副本 请 求 按照 主要 版 本 分 配 的 相同 序 
列 号 应 用 变异 。 

6. 第 二 级 都 回复 主要 版 本 ， 来 表明 操作 已 经 完成 了 。 

7. 主要 版 本 回复 客户 端 。 在 任何 副本 遇 到 的 任何 错误 都 会 报告 给 客户 端 。 如 果 发 生 错 误 ， 
写 会 在 主要 版 本 和 任意 第 二 级 副本 的 子 集 进 行 纠 正 。 客 户 端 请 求 会 被 认为 失败 ， 改 进 区 域 会 停 








图 6-19 GFS 中 的 数据 变异 序列 
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留 在 一 个 不 一 致 的 状态 。 我 们 的 客户 端 代码 通过 重 试 发 生 故 障 的 变异 来 处 理 这 样 的 错误 。 从 返 
回 重 试 最 开始 写 之 前 ,会 从 第 3 步 到 第 7 步 做 一 些 尝 试 。 

所 以 , 除了 由 GFS 提供 的 写 操作 外 ， 一些 特殊 的 附加 操作 会 用 来 附加 数据 块 到 文件 尾部 。 
提供 这 种 操作 是 因为 有 些 谷 歌 应 用 程序 需要 很 多 附加 操作 。 例 如 ， 当 网 络 候 虫 从 网 络 中 收集 数 
据 时 ， 网 页 内 容 将 被 附加 在 页 面 文件 上 。 所 以 才 提 供 并 优化 了 附加 操作 。 客 户 端 指定 附加 的 数 
据 ，GFS 至 少 一 次 将 它 附加 到 文件 上 。GFS 挑选 偏 移 量 ， 客 户 端 不 能 决定 数据 位 置 的 偏 移 量 。 附 
加 操作 适用 于 并 发 的 书写 者 。 

GIS 是 为 高 容错 设计 的 ， 并 采纳 了 一 些 方法 来 达到 这 个 目标 。 主 机 和 块 服务 器 能 够 在 数秒 之 
内 重启 ， 有 了 这 么 快 的 恢复 能 力 ， 数 据 不 可 使 用 的 时 间 窗 口 将 大 大 减少 。 正 如 上 文中 提 到 的 ， 每 
个 块 至 少 在 三 个 地 方 上 备份 ， 并 且 在 一 个 数据 块 上 至 少 能 够 容忍 两 处 数据 崩 演 。 影 子 主机 用 来 
处 理 GFS 主机 的 故障 。 对 于 数据 完整 性 ，GFS 在 每 个 块 上 每 64KB 就 进行 校 验 和 。 有 了 前 面 讨论 
过 的 设计 和 实现 ，GFS 可 以 达到 高 可 用 性 、 高 性 能 和 大 规模 的 目标 。GFS 证 明了 如 何在 商业 硬件 
上 支持 大 规模 处 理 负载 ， 这 些 硬件 被 设计 为 可 容忍 频繁 的 组 件 故 障 ， 并 且 为 主要 附加 和 读 取 的 
大 规模 文件 进行 了 优化 。 

6. 3.3 BigTable 一 一 谷歌 的 NOSQL 系统 

本 节 我 们 继续 讨论 谷歌 云 环境 的 关键 技术 。 我 们 已 经 在 6.2.2 节 中 介绍 了 最 著名 的 
MapReduce 技术 以 及 6. 2.5 节 的 Sawzal。 这 里 ,我 们 将 关注 另 一 个 谷歌 创新 技术 : BigTable。 我 
们 将 在 6. 3. 4 节 介 绍 Chubby 和 前 面 章节 已 描述 的 GFS。 

BigTable 提供 了 一 个 服务 ， 用 来 存储 和 检索 结构 化 与 半 结 构 化 的 数据 。BigTable 应 用 包括 网 
页 、 每 个 用 户 数据 和 地 理 位 置 的 存储 。 这 里 ， 我 们 使 用 网 页 来 代表 URL 及 其 相关 数据 ， 比 如 内 
容 、 疏 取 元 数据 、 链 接 、 错 和 网 页 评分 值 等 。 每 个 用 户 的 数据 拥有 特定 用 户 的 信息 ， 包 括 这 样 的 
数据 ， 例 如 用 户 优先 设置 、 最 近 查 询 /搜索 结果 以 及 用 户 电子 邮件 。 地 理 地 址 是 在 谷歌 地 图 软件 
上 使 用 的 。 地 理 位 置 包括 物理 实体 ( 商店、 和 餐馆 等 )、 道 路 ， 卫星 影像 数据 以 及 用 户 标注 。 

这 样 的 数据 规模 是 相当 大 的 。 会 有 数 十 亿 的 URL， 每 个 URL 都 有 很 多 版 本 ， 每 个 版 本 的 平 
均 网 页 大 小 是 20KB。 用 户 规模 也 很 巨大 ,会 有 上 亿 之 多 ， 每 秒 钟 就 会 有 数 千 次 查询 。 相 同 规模 
也 会 出 现在 地 理 数据 上 ， 这 可 能 会 消耗 超过 100TB 的 磁盘 空间 。 

使 用 商用 数据 库 系 统 来 解决 如 此 大 规模 结构 化 或 半 结 构 化 的 数据 是 不 可 能 的 。 这 是 重建 数 
据 管理 系统 的 一 个 原因 ; 产生 的 系统 可 以 以 较 低 的 增 量 成 本 应 用 在 很 多 项 目 中 。 重 建 数据 管理 
系统 的 另 一 个 动机 是 性 能 。 低 级 存储 优化 能 显著 地 提升 性 能 ， 但 如 果 运 行 在 传统 数据 库 层 之 上 ， 
则 会 困难 得 多 。 

BigTable 系统 的 设计 和 实现 有 以 下 的 目标 。 应 用 程序 需要 异步 处 理 来 连续 更 新 不 同 的 数据 
块 ， 并 且 需 要 在 任意 时 间 访问 大 部 分 的 当前 数据 。 数 据 库 需要 支持 很 高 的 读 / 写 速率 ， 规 模 是 每 
秒 数 百 万 的 操作 。 另 外 ， 数 据 库 还 需要 在 所 有 或 者 感 兴趣 的 数据 子 集 上 支持 高 效 扫 描 ， 以 及 大 规 
模 一 对 一 和 一 对 多 的 数据 集 的 有 效 连接 。 应 用 程序 有 可 能 需要 不 时 地 检测 数据 变化 〈 比 如 一 个 
网 页 多 次 人 息 取 的 内 容 ) 。 

因此 ，BigTable 能 够 看 做 是 分 布 式 多 层 映射 。 它 像 存储 服务 一 样 提供 了 容错 能 力 和 持续 数据 
库 。BigTable 系统 是 可 扩展 的 ， 这 意味 着 系统 有 数 千 台 服务 器 、 太 字 节 内 存 数据 、 拍 字 节 基于 磁 
盘 的 数据 、 每 秒 数 百 万 的 读 / 写 和 高 效 扫描 。BigTable 也 是 一 个 自我 管理 的 系统 例如， 服务 器 
能 动态 地 增加 / 移 除 ， 也 能 自动 负载 均衡 ) BigTable 的 设计 /最 初 实现 开始 于 2004 年 初 。 
BigTable 在 很 多 项 目 中 使 用 ， 包括 谷歌 搜索 、Orkut、 谷 歌 地 图 /谷歌 地 球 等 。 一 个 最 大 的 
BigTable 核 管理 了 分 布 在 数 千 台 机 器 中 的 大 约 200TB 的 数据 。 

BigTable 系统 建立 在 现 有 的 谷歌 云 基础 设施 之 上 上。BigTable 使 用 如 下 的 构建 模块 
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1. GES: 存储 持续 状态 

2. 调度 器 : 涉及 BigTable 服务 的 调度 作业 

3. 锁 服 务 : 主机 选择 ， 开 机 引导 程序 (bootstrapping) 定位 

376 4. MapReduce: 通常 用 来 读 / 写 BigTable 数据 

例 6.8 在 大 规模 媒质 中 使 用 的 BigTable 数据 模型 

BigTable 提供 了 一 个 比 传 统 数据 库 系统 更 简化 的 数据 模型 。 图 6-20a 描述 了 一 个 Web Table 
表格 实例 的 数据 模型 。Web Table 存储 了 有 关 网 页 的 数据 。 每 个 网 页 都 能 由 URL 来 访问 。URL 被 
当做 行 索引 。 列 提供 了 和 相应 的 URL 相关 的 不 同 数据 比如 ， 内 容 的 不 同 版 本 和 网 页 中 出 现 








的 错 。 在 这 个 意义 上 ，BigTable 是 一 个 分 布 式 多 维 稀 下 存储 上 映 射 。 
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a) BigTable 数 据 模 型 




















BigTable cell BigTable 主 服务 器 
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主 服务 器 选择 


b) BigTable 结 构 


图 6-20 BigTable 数据 模型 和 系统 结构 

2: 由 Chang 等 人 提供 [1 。 

这 个 映射 按照 行 键 值 、 列 键 值 和 时 间 发 来 索引 ， 即 (row: string , column; string , time: 
int64) 映射 到 string (cell contents)。 行 是 由 行 键 值 根据 字典 顺序 来 排序 的 。 一 个 表格 的 行 范围 是 
动态 分 块 的 ， 每 个 行 范围 被 称 为 “ 子 表 ”(Tablet)。 列 的 语法 是 (family: qualifier) 对 。 单 元 格 
可 以 存储 带 时 间 改 的 多 个 数据 版 本 。 

这 种 数据 模型 对 于 大 多 数 谷 歌 〈 或 其 他 组 织 ) 应 用 来 说 都 是 不 错 的 匹配 。 对 于 行 ，Name 是 

一 个 任意 字符 串 ， 对 于 行 数据 的 访问 是 原子 操作 。 这 和 传统 关系 数据 库 是 不 同 的 ， 传 统 数据 库 提 
供 了 元 余 的 原子 操作 〈 事 务 ) 。 行 创建 在 存储 数据 上 是 隐 式 的 。 行 是 按照 字典 顺序 进行 排序 的 ， 
通常 是 在 一 个 或 者 少量 机 器 上 。 

大 表格 根据 行 边界 被 分 成 多 个 子 表 。 一 个 子 表 保持 行 的 一 个 连续 范围 。 客 户 端 经 常 能 选择 
行 键 来 达到 近邻 性 。 系 统 的 目标 是 每 个 子 表 的 数据 量 达 到 100 ~200MB。 每 个 服务 器 负责 大 的 
100 个 子 表 。 这 能 实现 更 快 的 恢复 时 间 ， 因 为 100 对 机 器 每 侣 都 从 故障 机 器 中 选 出 一 个 子 表 。 这 
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也 导致 了 细 粒 度 负载 均衡 ， 即 从 过 载 机 器 中 移出 子 表 。 和 GFS 的 设计 类 似 ，BigTable 也 有 一 个 主 
服务 器 来 决定 负载 均衡 。 

图 6-20b 描述 了 BigTable 系统 结构 。BigTable 主 服务 器 管理 和 存储 BigTable 系统 的 元 数据 。 
BigTable 客户 端 使 用 BigTable 客户 端 程序 库 来 和 BigTable 主 服 务 器 以 及 子 表 服务 器 进行 通信 。 
BigTable 依靠 一 个 高 可 用 的 、 持 续 的 分 布 式 锁 服务 ， 称 为 Chubby ™ , WE 6.3.4 节 讨 论 。 E 

子 表 位 置 分 层 

图 6-21 描述 了 如 何 对 从 Chubby 中 存储 的 文件 开始 的 BigTable 数据 进行 定位 。 第 一 层 是 一 个 
存储 在 Chubby 上 的 文件 ， 它 包括 根子 表 的 位 置 。 根 子 表 在 一 个 特殊 元 数据 (METADATA) 表 中 
包含 所 有 子 表 的 位 置 。 每 个 METADATA 子 表 包 含 一 组 用 户 子 表 的 位 置 。 根 子 表 就 是 METADATA 
表 的 第 一 个 子 表 ， 它 的 处 理 比较 特殊 ; 它 绝 不 会 分 裂 ， 以 确保 子 表 位 置 分 层 不 会 多 于 三 层 。 


UserTable 1 









其 他 
METADATA 
子 表 


根子 表 
( Ist METADATA 表 ) 





Chubby 文 件 
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METADATA 表 存 储 一 个 行 键 值 下 一 个 子 表 的 位 置 ， 行 键 值 是 一 个 子 表 的 表格 标识 符 和 其 结 
束 行 的 编码 。BigTable 包含 很 多 优化 和 容错 特性 。Chubby 能 为 寻找 根子 表 确 保 文件 的 可 用 性 。 
BigTable 主机 能 迅速 扫描 子 表 服务 器 ， 来 确定 所 有 节点 的 状态 。 子 表 服 务 髓 使 用 压缩 来 有 效 地 存 
储 数据 。 共 享 日 志 用 来 记录 多 个 子 表 的 操作 ， 为 的 是 减少 日 志 空间 以 及 保持 系统 的 一 致 性 。 
6.3.4 ”Chubby 一 一 谷 识 的 分 布 式 锁 服务 


Chubby'” 用 来 提供 粗 粒 度 锁 服务 。 它 能 在 Chubby 存储 中 存储 小 文件 ， 这 里 提供 了 一 个 简单 
命名 空间 作为 文件 系统 树 。 和 GFS 中 的 大 规模 文件 相 比 ， 存 储 在 Chubby 上 的 文件 是 非常 小 的 。 
基于 Paxos 一 致 协议 ， 尽 管 任何 成 员 节点 都 会 出 现 故 障 ，Chubby 系统 仍然 能 够 非常 可 靠 。 图 6-22 
描述 了 Chubby 系统 的 整体 体系 结构 。 


客户 端 应 用 “| Chubby 库 CD 
容 户 端 进程 oe 
O: 


图 6-22 ”用 于 分 布 式 锁 服务 的 谷歌 Chubby 结构 
每 个 Chubby 单元 内 部 都 有 5 台 服 务 器 。 在 单元 中 每 台 服务 器 都 有 相同 的 文件 系统 命名 空间 。 
客户 端 使 用 Chubby 库 来 和 单元 中 的 服务 器 进行 对 话 。 客 户 端 应 用 程序 能 够 在 Chubby 单元 中 的 任 
何 服务 器 上 执行 各 种 文件 操作 。 服 务 器 运行 Paxos 协议 来 保持 整个 文件 系统 的 可 靠 性 和 一 致 性 。 
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Chubby 已 经 成 为 谷歌 的 主要 内 部 命名 服务 。GFS 和 BigTable 使 用 Chubby 来 从 宛 余 副本 中 选择 一 
个 最 主要 版 本 。 


6.4 亚马逊 AWS 与 微软 Azure 中 的 编程 


在 这 一 节 中 ， 我 们 将 会 考虑 AWS 平台 的 编程 支持 。 首 先 ， 我 们 回顾 AWS 平台 及 其 提供 的 更 
新 服务 。 然 后 ， 通 过 编程 实例 来 研究 EC2、S3 Al SimpleDB 服务 。 回 到 图 4-22 和 图 4-23 所 示 的 编 
BARNA, WM (F Azure 一 样 ) 通过 6. 1.3 节 介 绍 的 消息 传递 接口 为 一 个 关系 数据 库 服 
务 (Relational Database Service, RDS), SPE MapReduce 的 功能 与 运行 在 EC2 基础 上 的 Hadoop 相 
=, WEHE SimpleDB 中 支持 NOSQL。 然 而 亚马逊 并 没有 直接 支持 6. 3. 3 节 描 述 的 BigTable。 

现在 我 们 将 关注 表 4-6 列 出 的 几 个 更 多 的 功能 。 亚 马 逊 提供 了 简单 队列 服务 (SOS) 和 简单 
通知 服务 (SNS) ， 它 们 是 在 5. 2 节 和 5. 4.5 节 中 讨论 的 服务 的 云 实现 。 注 意 ， 代 理 系统 在 云 中 
运行 非常 有 效 ， 它 提供 了 一 种 引 人 注 目的 模型 来 控制 传感器 以 及 给 数量 不 断 增长 的 智能 手机 和 
平板 电脑 后 台 办 公 支 持 "!。 我 们 进一步 注意 到 自动 伸缩 和 弹性 负载 均衡 服务 支持 的 相关 功能 。 
自动 伸缩 能 够 根据 用 户 定义 自动 调节 亚马逊 EC2 平台 的 容量 大 小 。 通 过 自动 伸缩 ， 用 户 可 以 确 
保 使 用 的 亚马逊 EC2 实例 数量 ， 在 需求 高 峰 时 无 锋 地 扩大 规模 以 保持 性 能 ， 在 需求 低谷 时 自动 
缩减 规模 以 降低 成 本 。 

弹性 负载 均衡 自动 分 配 进来 的 应 用 流量 到 多 个 亚马逊 EC2 实例 ， 这 样 可 以 避免 闲置 节点 ， 
同时 在 工作 镜像 上 均衡 化 负载 。CloudWatch 用 来 监控 运行 中 的 实例 ， 通 过 CloudWatch 可 以 实现 
自动 伸缩 和 弹性 负载 均衡 。CloudWatch 是 一 个 提供 AWS 云 资 源 监 控 的 Web 服务 ， 与 亚马逊 EC2 
一 起 启动 。 它 帮助 用 户 直 观 地 了 解 资源 利用 情况 、 操 作 性 能 和 总 体 需求 模式 一 一 其 中 包括 CPU 
利用 率 、 磁 盘 读 / 写 和 网 络 流量 的 度量 。 
6.4.1 亚马逊 EC2 上 的 编程 

亚马逊 是 第 一 家 引入 应 用 托管 虚拟 机 的 公司 。 用 户 可 以 租借 虚拟 机 而 不 是 物理 机 器 来 运行 
他 们 的 应 用 程序 。 通 过 使 用 虚拟 机 ， 用 户 可 以 自己 选择 加 载 任意 软件 。 这 类 服务 的 弹性 特点 是 用 
户 可 以 根据 需要 创建 、 启 动 和 终止 服务 器 实例 ， 并 且 对 活动 服务 器 按 小 时 支付 费用 。 亚 马 逊 提供 
几 种 类 型 的 预 装 虚拟 机 。 实 例 通常 称 为 亚马逊 机 器 镜像 (Amazon Machine Image，AMI) 。 这 些 虚 
拟 机 预先 配置 了 Linux 或 者 Windows 的 操作 系统 和 一 些 附 加 软件 。 

表 6-12 定义 了 3 种 类 型 的 AMI。 图 6-23 显示 了 运行 环境 。AMI 是 运行 虚拟 机 的 实例 模板 。 
建立 一 个 虚拟 机 的 工作 流 是 

”创建 一 个 AMI 一 创建 密 钥 对 一 配置 防火 墙 一 启动 (6-3) 


6-12 =% AMI 













私有 AMI 





镜像 由 用 户 创建 ， 默 认为 私有 类 型 。 可 以 授权 给 其 他 用 户 来 启动 你 的 私有 镜像 


镜像 由 用 户 创建 并 发 布 到 AWS 社区 ， 任 何人 都 能 以 他 们 喜欢 的 方式 启动 实例 并 使 
用 。 亚 马 逊 网 站 在 以 下 网 址 列 出 了 所 有 公共 镜像 : http ://developer. amazon webservices. 
com/connect/kbeategory. jspa? categoryID = 171 


你 可 以 创建 具有 特定 功能 的 镜像 。 任 何人 只 要 在 亚马逊 收费 之 上 按照 使 用 的 小 时 数 
支付 给 你 费用 即 可 使 用 








公共 AMI 










付费 QAMI 





如 图 6-23 所 示 ， 这 个 序列 被 公共 、 私 有 和 付费 AM 所 支持 。AMI 由 图 6-23 底部 所 示 的 虚拟 
化 计算 、 存 储 器 和 服务 器 资源 构成 。 
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亚马逊 机 器 镜像 


* EPEIP Hh 
{= 弹性 块 存储 





计算 存储 器 服务 器 
图 6-23 ”亚马逊 EC2 运行 环境 


例 6.9 在 AWS 平台 使 用 EC2 服务 

表 6-13 列 出 了 2010 年 10 月 在 5 个 大 类 中 可 用 的 IaaS 实例 : 

1. 标准 实例 适合 大 多 数 应 用 。 

2. 微 实 例 ”提供 少量 一 致 的 CPU 资源 ， 在 额外 的 周期 允许 超过 CPU 容量 。 适 合 较 低 吞吐 量 
的 应 用 程序 或 者 定期 进行 大 量 计算 的 网 站 。 

3. 大 内 存 实例 提供 大 内 存 容 量 用 于 高 吞吐 量 应 用 ， 包 括 数 据 库 和 内 存 高 速 缓存 的 应 用 。 

4. 高 CPU 实例 提供 按照 比例 比 内 存 (RAM) 更 多 的 CPU 资源 ， 适 用 于 计算 密集 型 应 用 。 

5. 集群 计算 实例 ”提供 网 络 性 能 增强 的 高 CPU 资源 ， 适 合 于 高 性 能 计算 应 用 和 其 他 需要 网 
络 绑 定 的 应 用 。 它 们 使 用 10GB 以 太 网 互 连 。 


表 6-13 ”亚马逊 EC2 实例 类 型 (2010 年 10 月 6 日 ) 














Too EC 
标准 : 小 1.7 1 1 32 
标准 : 大 9 4 2 850 64 
标准 : 特大 | 64 
微型 只 有 EBS 32 或 64 
大 内 存 17.1 6.5 2 420 64 
大 内 存 : SUB 34.2 13 4 850 64 
二 
高 CPU: 中 等 5 2 350 32 
高 CPU; 特大 7 20 | eee 
KEHA 到 as es | | i& 








第 三 列 中 的 成 本 是 根据 EC2 计算 单元 《EC2 Compute Units, ECU) 计算 ， 一 个 ECU 提供 相当 于 一 
个 1.0 ~1.2 GHz 的 2007 Opteron 或 2007 Xeon 处 理 器 的 CPU 计算 能 力 。 表 6-14 是 CPU 每 小 时 的 使 用 成 
本 。 注 意 ， 在 实际 使 用 EC2 时 要 支付 多 种 资源 的 费用 ， 而 表 6-14 的 CPU 费用 只 是 其 中 一 项 ， 其 他 所 
有 费用 〈 通 常 自 然 收 费 ， 所 以 读者 应 当 在 线 获 得 最 新 的 数据 ) 可 以 在 AWS 网 站 中 查看 。 a 
6.4.2 亚马逊 简单 存储 服务 (S3) 

亚马逊 S3 提供 一 个 简单 Web 服务 接口 ， 利 用 该 接口 可 以 在 任意 时 间 、 任 意 地 点 通过 Web 存 
储 和 检索 任意 数据 。S3 为 用 户 提供 面向 对 象 的 存储 服务 。 用 户 可 以 通过 带 有 支持 SOAP 的 浏览 
器 或 者 其 他 客户 端 程序 的 SOAP 来 访问 他 们 的 对 象 。SQS 用 来 确保 两 个 进程 间 的 可 靠 消 息 服务 ， 
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即使 接收 进程 没有 运行 。 图 6-24 为 S3 的 运行 环境 。 


表 6-14 ”亚马逊 按 需 虚拟 机 实例 类 型 的 成 本 (2010 年 10 月 6 日) 





虚拟 机 实例 类 型 规 A 使 用 Linux/UNIX (美元 /时 ) | 使 用 Windows (美元 /时 ) 
小 (默认 ) 0. 085 0.12 

标准 实例 大 0. 34 0. 48 
特大 0.96 

微 实例 微型 0. 02 0. 03 
特大 0. 50 0. 62 




















大 内 存 实例 双 倍 特大 1. 00 1. 24 
4 倍 特大 2. 00 2.48 
集群 计算 实例 4 倍 特大 1. 60 暂 无 


CD 
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图 6-24 亚马逊 53 运行 环境 


对 象 (object) 是 53 的 基本 操作 单元 。 每 个 对 象 被 存储 在 桶 (bucket) 里 ， 通 过 唯一 的 开发 
者 分 配 的 键 值 (key) 来 被 检索 。 也 就 是 说 ， 桶 是 对 象 的 集 装 器 。 除 了 唯一 的 键 值 属性 以 外 ， 对 
象 还 有 数值 、 元 数据 和 访问 控制 信息 等 其 他 属性 。 从 程序 员 的 角度 来 看 ，S3 的 存储 可 以 被 看 做 
一 个 非常 粗 粒 度 的 键 - 值 对 存储 。 通 过 键 - 值 编程 接口 ， 用 户 可 以 读 、 写 和 删除 对 象 ， 每 个 对 象 
的 大 小 可 以 从 1B 到 5GB。 用 户 可 以 通过 两 类 Web 服务 接口 访问 亚马逊 云 存 储 的 数据 。 一 个 是 
REST (Web 2.0) 接口 ， 另 一 个 是 SOAP 接口 S3 的 一 些 关键 特征 如 下 : 


通过 地 理 分 散 宛 余 。 

利用 更 便宜 的 减少 元 余 存 储 (Reduced Redundancy Storage，RRS ) ， 设 计 提 供 了 一 个 在 给 
定 一 年 内 99. 999999999 % 的 耐用 性 和 99. 99% 可 用 性 的 对 象 。 

认证 机 制 用 于 确保 数据 不 被 非法 访问 。 对 象 可 以 设置 为 私有 或 者 公共 ， 也 可 以 授权 给 指 
定 用 户 。 

每 个 对 象 有 URL 和 ACL (访问 控制 列表 ) 。 

默认 下 载 协 议 为 HTTP。BitTorrent 协议 接口 用 来 降低 大 规模 分 发 的 费用 。 

每 月 存储 费用 (取决 于 存储 总 量 ) 是 0.055 美元 /GB (超过 5000 TB) 到 0.15 美元 /GB。 
每 个 月 最 初 1GB 的 输入 或 者 输出 流量 是 免费 的 ， 然 后 发 往 S 区 域 之 外 的 流量 价格 为 每 
0. 08 ~0. 15 美元 /GB。 

在 相同 区 域 的 亚马逊 EC2 和 S3 之 间或 者 弗吉尼亚 北部 地 区 亚马逊 EC2 和 美国 标准 地 区 
亚马逊 S3 之 间 传 输 数 据 是 不 收取 费用 的 (2010 年 10 月 6 日 )。 
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6.4.3 亚马逊 弹性 数据 块 存储 服务 (EBS) 和 SimpleDB 
弹性 块 存储 (Elastic Block Store, EBS) 提供 卷 块 接口 用 于 存储 和 恢复 EC2 实例 的 虚拟 镜像 。 

传统 的 EC2 实例 在 使 用 后 被 销毁 。 现 在 ， 在 机 器 关闭 后 ，EC2 的 状态 仍 被 保存 在 EBS 系统 中 。 

用 户 可 以 使 用 EBS 保存 永久 性 数据 和 安装 到 EC2 的 运行 实例 。 注 意 ，S3 是 带 消 息 传 递 接口 的 

“存储 即 服务 ”。EBS 类 似 于 传统 的 操作 系统 磁盘 访问 机 制 的 分 布 式 文件 系统 。EBS 允许 用 户 创 

建 大 小 为 1GB 到 1TB 的 存储 卷 ， 可 以 安装 为 EC2 实例 。 

多 个 卷 可 以 被 安装 在 同一 个 实例 中 。 这 些 存储 卷 就 像 原始 的 未 格式 化 的 块 设备 ， 带 有 用 户 
提供 的 设备 名 和 块 设备 接口 。 在 亚马逊 EBS 卷 上 ， 用 户 可 以 创建 一 个 文件 系统 ， 也 可 以 按 使 用 
块 设备 ( 像 硬 驱 动 一 样 ) 的 其 他 任意 方式 来 使 用 存储 卷 。 快 照 用 来 增 量 地 保存 数据 ， 利 用 快照 
可 以 提高 数据 存储 和 恢复 的 性 能 。 关 于 价格 ， 亚 马 逊 提供 了 类 似 EC2 和 53 HRB RH. F 
储 卷 的 收费 依据 是 用 户 分 配 的 存储 量 ， 直 到 释放 为 止 ， 价 格 为 每 月 0. 10 美元 /CB。EBS 还 对 存 
储 器 每 100 万 个 VO 请 求 收取 0. 10 美元 的 费用 (2010 年 10 月 6 日 )。 和 EBS 相似 的 服务 也 已 经 
在 开源 云 计算 系统 中 提供 ， 例 如 Nimbus。 

亚 马 示 SimpleDB 服务 

SimpleDB 基于 关系 数据 库 数据 模型 提供 了 一 个 简单 数据 模型 。 用 户 的 结构 化 数据 被 组 织 到 
域 中 ， 每 个 域 可 以 看 做 是 一 个 表 ， KA (item) 是 表 中 的 列 ， 表 中 的 单元 格 存放 相应 行 的 具体 属 
性 〈 列 名 ) 的 值 。 这 和 关系 数据 库 很 相似 。 不 同 的 是 ， 它 可 能 分 配 多 个 值 到 表格 中 的 一 个 单元 。 
而 在 传统 关系 数据 库 中 ， 为 了 保持 数据 的 一 致 性 ， 这 是 不 允许 的 。 

许多 开发 人 员 只 是 希望 能 够 快速 地 存储 、 访 问 和 查询 存储 的 数据 ， 因 此 SimpleDB 放弃 了 维 
持 强 一 致 性 数据 库 模 式 的 需求 。SimpleDB 的 定价 是 每 台 SimpleDB 机 器 每 个 月 最 初 25 小 时 免费 ， 
超出 部 分 每 机 每 月 0. 140 美元 (2010 年 10 月 6 日 )。 和 Azure Table 一 样 ，SimpleDB 可 以 被 称 为 
“LittleTable”， 因 为 它们 由 在 管理 存储 在 分 布 式 表格 中 的 少量 信息 。 我 们 可 以 认为 BigTable $7 
管理 基本 的 大 数据 ， 而 LitleTable 旨 在 管理 元 数据 。 亚 马 逊 Dynamo'™! YEH SimpleDB 生产 线 下 
来 的 早期 研究 系统 。 

6.4.4 微软 Azure 编程 支持 

4.4.4 节 介绍 了 Ame 云 系统 。 本 节 将 更 详细 地 描述 这 一 编程 模式 。 主 要 编程 组 件 有 客户 端 
开发 环境 、SQLAzure， 以 及 海量 存储 和 编程 子 系统 ， 如 图 6-25 所 示 。 我 们 集中 在 开发 Azure 程序 
的 重要 特点 。 首 先 ， 我 们 拥有 底层 Azure 框架 ， 它 包括 虚拟 化 的 硬件 和 复杂 的 控制 环境 ， 可 以 实 
现 资源 的 动态 分 配 和 容错 。 这 实现 了 域名 系统 (DNS) 和 监控 功能 。 自 动 服务 管理 允许 用 XML 
模板 定义 服务 类 型 ， 还 可 以 将 多 个 服务 复制 按 请 求实 例 化 。 

当 系 统 运行 时 ， 服 务 处 于 监控 状态 ， 人 们 可 以 访问 事件 日 志 、 跟 踪 / 调 试 数据 、 性 能 计数 器 、 
HS Web 服务 日 志 、 崩 滥 转 和 鳍 和 其 他 日 志文 件 。 这 些 信息 可 以 保存 在 Azure 存储 器 中 。 注 意 ， 运 
行 云 端 应 用 不 能 进行 调试 ， 但 是 调试 可 以 由 跟踪 完成 。Azure 的 基本 特点 可 以 分 为 存储 和 计算 能 
Jio Azre 应 用 程序 通过 定制 的 计算 虚拟 机 连接 到 互联 网 ， 这 个 虚拟 机 称 为 Web 角色 ， 它 支持 基 
本 的 微软 Web 托管 。 这 样 配 置 的 虚拟 机 一 般 称 为 工具 机 (appliance)。 另 一 个 重要 计算 类 是 服务 
器 角色 ， 它 反映 了 在 云 计算 中 当 需 要 时 进行 调度 的 计算 资源 池 的 重要 性 。 服 务 器 角色 支持 HITP(S) 
和 TCP 协议 。 和 角色 提供 以 下 方法 函数 ; 

© OnStart( ) 方 法 在 零件 组 成 结构 启动 时 调用 ， 人 允许 初始 化 任务 。 它 报告 忙碌 状态 到 负载 均 

衡器 ， 直 到 返回 true。 

© OnStop( ) 方 法 当 角 色 要 被 关闭 时 调用 ， 执 行 平稳 退出 。 

e Run( ) 方 法 包含 主要 逻辑 。 384 
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正如 第 4 章 所 讨论 的 ，Azure 中 角色 的 概念 是 一 个 有 趣 的 想法 ， 我们 可 以 期 待 扩展 角色 类 型 
并 在 其 他 云 计算 环境 中 使 用 。 图 6-25 展示 计算 角色 可 以 达到 负载 均衡 ， 这 点 与 CAE 和 AWS z 
的 处 理 相似 〈 见 4.1 节 )。 








EEE | Ce. 
a od 


零件 组 成 
结构 控制 器 


6.4.4.1 SQLAzure 

如 图 6-25 所 示 ，Azure 提供 一 系列 非常 丰富 的 存储 功能 。SQLAzure 提供 SQL 服务 器 作为 服 
务 ， 将 在 例 6. 10 中 详细 描述 。 除 了 最 新 引进 的 驱动 外 ， 其 他 所 有 存储 形式 都 用 REST 接口 访问 ， 
这 点 与 6.4.3 节 中 讨论 的 亚马逊 EBS 相似 ， 另 外 提供 一 个 文件 系统 接口 作为 支持 blob 存储 的 持 
久 NTFS 卷 。REST 接口 自动 关联 URL， 同 时 为 了 提高 容错 性 能 ， 保 证 访问 的 一 致 性 ， 所 有 存储 
将 被 复制 三 次 。 

类 似 于 亚马逊 中 的 S3 Azure 的 基本 存储 系统 建立 在 blob 之 上 。blob 数据 模型 分 为 三 个 层 
次 : 账户 一 集 装 器 一 页 面 或 块 bbob。 集 装 器 类 似 传 统 文件 系统 的 目录 ， 账 户 是 根 目 录 。 块 blob 用 
于 流 数据 ， 每 个 blob 由 若干 个 有 序 的 块 组 成 ， 每 个 块 最 大 为 4MB，ID 长 度 为 64 字 节 。 块 blob 容 
量 上 限 为 200GB。 页 blob 用 于 随机 读 / 写 访问 ， 包 含 一 系列 页 ， 最 大 为 1TB。blob 中 的 数据 与 相 

385) 应 的 元 数据 建立 关系 ， 元 数据 以 <name, value > 形式 表示 ， 每 个 blob 最 多 有 8KB 的 元 数据 说 明 。 

6.4.4.2 Azure 表 

Azure 表 和 队列 存储 模式 目标 是 非常 小 的 数据 卷 。 队 列 提供 可 靠 的 消息 传递 ， 很 自然 地 用 于 
支持 Web 和 服务 器 角色 之 间 的 工作 分 配 。 队 列 可 以 包括 数目 不 限 的 消息 ， 队 列 中 的 消息 至 少 可 
以 被 检索 和 处 理 一 次 ， 每 个 消息 长 度 最 大 为 8KB。Azure 支持 PUT, GET 和 DELETE 消息 操作 以 
及 CREATE 和 DELETE 队列 操作 。 每 个 账户 可 以 有 任意 数量 的 Azure K, Azure 表 中 的 行 称 为 实 
体 ， 列 称 为 属性 。 

表格 中 的 实体 数量 没有 限制 ， 这 个 技术 被 设计 为 可 以 很 好 地 扩展 到 分 布 式 计算 机 中 存储 的 
大 量 实体 。 一 个 实体 最 多 可 以 包括 255 个 通用 属性 ， 它 们 是 < name, type, value > 三 元 组 。 每 个 
实体 必须 定义 另外 的 两 个 属性 PartitionKey 和 RowKey, 但 在 其 他 方面 ， 属 性 的 命名 没有 限制 一 一 
这 个 表 是 非常 灵活 的 ! RowKey 用 来 唯一 标识 每 个 实体 ， 而 PartitionKey 被 设计 成 共享 具有 相同 
PartitionKey 的 实体 存储 在 相 邻 的 位 置 。 用 好 PartitionKey 可 以 加 速 搜索 性 能 。 一 个 实体 可 以 至 多 
有 1MB 的 存储 容量 ; 如 果 你 需要 更 大 的 容量 ， 只 需要 在 表格 的 属性 值 中 存储 一 个 到 blob 存储 的 








图 6-25 Azure 云 计 算 平 台 特 征 
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链接 。ADO. NET 和 LINQ 支持 表格 查询 。 

例 6. 10 SQLAzure 数据 服务 

Azure 提供 了 一 个 复杂 的 数据 库 编 程 接 口 。( 更 多 细节 参见 www. microsoft. com/azure/sql. 
mspx) 。SQLAzure 数据 服务 可 以 近似 看 做 传统 的 关系 数据 库 。 建 立 在 目前 成 熟 的 商业 软件 包 上 ， 
SQLAzure 可 以 被 视 为 是 一 个 高 度 可 扩展 的 、 按 需 数 据 存储 和 查询 处 理 的 效用 服务 。SQLAzure 的 
服务 接口 基于 标准 Web 协议， 并且 SQLAzure 支持 SOAP 和 REST。 由 于 基于 关系 数据 库 ，SQL 数 
据 服 务 〈SQL Data Services, SDS) 比 之 前 讨论 的 两 个 NOSQL 数据 管理 服务 (谷歌 的 BigTable 和 
亚马逊 的 SimpleDB) 能 够 提供 更 丰富 的 数据 模型 。 

SQLAzure 中 的 数据 模型 包括 三 个 灵活 的 模式 ; 授权 机 构 (authority), RÆ (container) 
和 和 实体。 用 户 在 注册 完 数据 服务 后 ， 可 以 创建 一 个 授权 机 构 ， 表 示 为 一 个 DNS 名 称 ， 例如 
mydomain. data. database. windows. net， 其 中 mydomain 是 用 户 创 建 的 授权 机 构 ，data. database. 
windows. net 指 的 是 相应 的 服务 。 用 户 可 以 在 任意 时 间 创 建 多 个 授权 机 构 。 这 个 NDS 名 将 解析 到 
一 个 特定 的 下 地址 并 映射 到 特定 的 数据 中 心 。 因 此 一 个 授权 机 构 和 它 的 数据 存储 在 同一 个 数据 
中 心 。 在 最 高 级 授权 机 构 之 下 的 是 集 装 器 ， 一 个 授权 机 构 包 含 若 干 个 集 装 器 (RARA). X 
器 可 以 使 用 其 ID 作为 和 句柄， 在 授权 机 构 中 查找 相应 的 集 装 器 。 

集 装 器 是 用 户 存放 数据 的 地 方 。 就 像 SimpleDB 一 样 ， 用 户 可 以 将 数据 存储 在 集 装 器 ， 而 无 
需 考虑 数据 模式 。 实 体 是 存储 在 集 装 器 中 的 单元 。 一 个 实体 可 以 存放 任意 数量 用 户 自 定义 的 属 
性 和 相应 值 ( 例 如 ， 像 SimpleDB 中 的 属性 和 值 ) 。 这 里 有 两 个 不 同类 型 的 集 装 器 ， 同 构 集 装 器 和 
异 构 集 装 器 。 像 关系 数据 库 表格 一 样 ， 一 个 同 构 集 装 器 的 所 有 实体 具有 相同 的 类 型 ， 而 异 构 集 装 
器 则 没有 这 一 限制 。 这 些 概念 在 图 6-25 中 可 以 看 到 。 

SDS 是 Azure 平台 提供 云端 应 用 程序 的 构建 模块 之 一 。 它 的 确 提 供 了 企业 级 数据 平台 。 微 软 
在 全 世界 范围 内 建设 了 多 个 数据 中 心 ， 用 于 托管 第 三 方 云 端 应 用 。 多 个 数据 中 心 使 得 数据 具有 
高 可 用 性 和 安全 性 ， 用 户 不 用 担心 数据 的 丢失 。SQLAzure 的 另 一 个 重要 特征 是 易于 开发 。SDS 
(实际 上 是 整个 Azure 平台 SDK) 可 以 与 微软 强大 的 Visual Studio 开发 环境 整合 在 一 起 ， 这 样 能 
大 大 提高 开发 人 员 开 发 云端 应 用 的 效率 和 有 效 性 。 | 


6.5 新 兴 云 软件 环境 


本 节 我 们 对 流行 的 云 操 作 系统 和 新 兴 云 软件 环境 进行 评估 。 我 们 覆盖 了 开源 的 Eucalyptus 和 
Nimbus ， 然 后 检测 了 OpenNebula, Sector/Sphere 和 Open Stack。 第 3 章 从 虚拟 化 的 角度 介绍 了 这 
些 环 境 。 现 在 ， 我 们 提供 了 更 多 关于 编程 需求 的 细节 。 我 们 还 将 涉及 最 近 在 墨尔本 大 学 开发 出 的 
Aneka 云 编 程 工 具 。 

6.5.1 开源 的 Eucalyptus 和 Nimbus 


Eucalyptus 是 从 加 州 大 学 圣 巴 巴 拉 分 校 一 个 研究 项 目 开 发 出 的 Eucalyptus Systems 
(www. eucalyptus. com) 发 展 而 来 的 一 个 产品 。Eucalyptus 最 初 骨 在 将 云 计算 范式 引入 到 学 术 上 的 
超级 计算 机 和 集群 。Eucalyptus 提供 了 一 个 AWS 兼容 的 基于 EC2 的 Web 服务 接口 ， 用 来 和 云 服 
务 交 互 。 另 外 ，Eucalyptus 也 提供 服务 ， 如 AWS 兼容 的 Walrus， 以 及 一 个 用 来 管理 用 户 和 镜像 的 
用 户 接 口 。 

6.5.1.1 Eucalyptus 体系 结构 

Eucalyptus 系统 是 一 个 开放 的 软件 环境 。Eucalyptus H E BOS! 中 介绍 了 这 个 体系 结构 。 在 
图 3-27 中 ， 我 们 已 经 从 虚拟 集群 化 的 角度 介绍 了 Eucalyptus。 图 6-26 从 管理 虚拟 机 镜像 的 要 求 
上 给 出 了 体系 结构 。 如 下 所 示 该 系统 在 虚拟 机 镜像 管理 中 支持 云 程序 员 。 实 际 上 ， 该 系统 已 经 延 
伸 到 支持 计算 云 和 存储 云 的 的 开发 。 
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R 6-26 用 于 虚拟 机 镜像 管理 的 Eucalyptus 体系 结构 
iÈ: 由 Eucalyptus LLC 协议 提供 [81] 。 


6.5.1.2 虚拟 机 镜像 管理 

Eucalyptus 吸收 了 很 多 亚马逊 EC2 的 设计 成 果 ,， 且 二 者 镜像 管理 系统 没有 什么 不 同 。 
Eucalyptus 在 Walrus 中 存储 镜像 ， 其 块 存储 系统 类 似 于 亚马逊 S 服务 。 这 样 ， 任 何 用 户 可 以 自 
己 捆绑 自己 的 根 文件 系统 ， 上 传 然后 注册 镜像 并 把 它 和 一 个 特定 的 内 核 与 虚拟 硬盘 镜像 连接 起 
来 。 这 个 镜像 被 上 传 到 Walrus 内 由 用 户 自 定义 的 桶 中 ， 并 且 可 以 在 任何 时 间 从 任何 可 用 区 域 中 
被 检索 。 这 样 就 允许 用 户 创 建 专门 的 虚拟 工具 (http://en. wikipedia. org/wiki/Virtual_appliance ) 
并 且 不 费力 地 用 Eucalyptus 来 配置 它们 。Eucalyptus 系统 提供 了 一 个 商业 版 权 版 本 ， 以 及 我 们 刚 
刚 描述 的 开源 版 本 。 

6.5.1.3 Nimbus 

Nimbus ™ “1 是 一 套 开源 工具 ， 一 起 提供 一 个 laas 云 计 算 解 决 方案 。 图 6-27 给 出 了 Nimbus 的 

B87) 体系 结构 ， 它 允许 客户 租赁 远程 资源 ， 通 过 在 资源 上 部 署 虚拟 机 和 配置 它们 表示 用 户 期 望 的 环 

境 。 为 了 这 个 目的 ，Nimbus 提供 了 一 个 被 称 为 Nimbus Web 的 特殊 Web Ri”, HEEL 
个 友好 的 界面 提供 管理 和 用 户 功能 。Nimbus Web 以 一 个 Python Django! Web 应 用 为 中 心 ， 其 目 
的 是 部 署 时 可 以 从 Nimbus 服务 中 完全 分 离 出 来 。 

正如 我 们 在 图 6-27 中 所 看 到 的 ， 一 个 称 为 Cumulus! 的 存储 云 实现 已 经 与 其 他 中 心服 务 紧 
密集 成 起 来 ， 尽 管 其 可 以 单独 使 用 。Cumulus 和 亚马逊 的 S3 REST API[e5] 兼 容 ， 并 通过 包含 诸如 
配额 管理 这 些 特征 扩展 了 其 功能 。 因 而 ， 那 些 不 能 和 S3 REST API 同时 运行 的 客户 端 (如 
boto!®®! 和 s2cmdlel ) 能 够 和 Cumulus 一 起 运行 。 另 外 ，Nimbus 云 客户 端 使 用 Java Jets3t Be!) 与 
Cumulus 进行 交互 。 

Nimbus 支持 两 种 资源 管理 策略 。 第 一 种 是 默认 的 “资源 池 ” 模 式 。 在 这 种 模式 中 ， 服 务 直 
接 控 制 虚拟 机 管理 器 节点 池 ， 且 假设 其 能 启动 虚拟 机 。 另 一 个 支持 模式 被 称 为 “飞行 模式 ”。 在 
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DHCP 服 务 器 


图 6-27 Nimbus 云 基础 设施 
注 ; 由 Nimbus 项 目 提 供 [82] 。 


这 里 ， 服 务 向 集群 的 本 地 资源 管理 系统 (Local Resource Management System, LRMS) 发 出 请 求 ， 
以 获得 一 个 可 用 的 虚拟 机 管理 器 来 配置 虚拟 机 。Nimbus 也 提供 亚马逊 EC2 接口 和”! 的 实现 ， 人 允许 
用 户 使 用 为 真实 EC2 系统 开发 的 客户 端 ， 而 不 是 基于 Nimbus 的 云 。 

6.5.2 OpenNebula, Sector/Sphere 和 Open Stack 


Open Nebulal% ?1 是 一 个 开源 的 工具 包 ， 它 可 以 把 现 有 的 基础 设施 转换 成 像 类 似 云 界面 的 
Jaas 云 。 图 6-28 显示 了 OpenNebula 体系 结构 及 其 主要 组 件 。OpenNebulal 吧 的 体系 结构 已 经 被 设 
计 得 非常 灵活 且 模 块 化 ， 允 许 与 不 同 的 存储 和 网 络 基 础 设施 配置 以 及 hypervisor 技术 集成 起 来 。 
这 里 ， 核 心 是 一 个 集中 式 组 件 ， 它 管理 着 虚拟 机 的 全 部 生命 周期 ， 包 括 动 态 设 置 虚拟 机 群 的 网 
络 ， 管 理 它们 的 存储 需求 ， 如 虚拟 机 磁盘 镜像 的 部 署 或 者 即时 软件 环境 的 生成 。 








- | openNebua 






































图 6-28 OpenNebula 体系 结构 及 其 主要 组 件 
注 ; Sotomayor 提供 [94] 。 
另外 一 个 重要 的 组 件 是 容量 管理 器 或 调度 器 。 它 管理 核心 提供 的 功能 。 默 认 的 容量 调度 器 
是 一 个 需求 /rank 的 匹配 者 。 然 而 ,很 有 可 能 通过 租赁 模型 和 提前 预 留 ”! 发 展 出 更 为 复杂 的 调度 
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策略 。 最 后 的 主要 组 件 是 访问 驱动 器 。 它 们 提供 一 个 底层 基础 设施 的 抽象 来 显示 在 集群 中 可 用 
的 监测 、 存 储 、 虚 拟 化 服务 的 基本 功能 。 因 此 ，OpenNebula 没有 绑 定 到 任何 特定 环境 ， 并 且 能 
提供 一 个 与 虚拟 平台 无 关 的 统一 管理 层 。 

此 外 ，OpenNebula 提供 管理 界面 来 整合 其 他 数据 中 心 管理 工具 的 核心 功能 ， 如 审计 或 监测 
框架 。 为 此 ，OpenNebula 实现 了 libvirt API[s%] ， 它 是 一 个 虚拟 机 管理 的 开放 接口 ， 也 是 一 个 命令 
行 界面 (Command Line Interface，CLI) 。 这 些 功能 的 一 部 分 通过 一 个 云 接口 显示 给 外 部 用 户 。 
OpenNebula 能 够 适应 组 织 资源 需求 的 变化 ， 包 括 物 理 资源 的 增加 或 失效 “!。 一 些 支持 变化 环境 
的 基本 特性 有 实时 迁移 和 虚拟 机 快照 '”! 。 

进一步 ， 当 本 地 资源 不 足 时 ，OpenNebula 能 够 通过 使 用 和 外 部 云 接口 的 云 驱 动 器 支持 混合 
云 模型 。 这 使 得 组 织 能 用 公有 云 的 计算 容量 来 补充 本 地 设施 以 满足 峰值 需求 或 者 实现 高 可 用 策 
略 。OpenNebula 目前 包括 一 个 EC2 驱动 器 ， 它 能 向 亚马逊 EC2™! 和 Eucalyptus", Wk 
ElasticHosts 驱动 器 te 提交 请 求 。 关 于 存储 ， 镜 像 库 允许 用 户 很 容易 地 从 一 个 目录 中 指定 磁盘 镜 
像 ， 而 不 用 担心 低级 磁盘 配置 属性 或 者 块 设备 映射 。 同 时， 镜像 访问 控制 被 应 用 到 仓库 中 注册 过 
的 镜像 ， 于 是 简化 了 多 用 户 环境 和 镜像 共享 。 不 过 ， 用 户 也 可 以 建立 他 们 自己 的 镜像 。 

6.5.2.1 Sector/Sphere 

Sector/ Sphere 是 一 个 软件 平台 ， 能 够 在 一 个 数据 中 心 内 部 或 在 多 个 数据 中 心 之 间 ， 支 持 大 量 
商业 计算 机 集群 上 的 大 规模 分 布 式 数据 存储 和 简化 的 分 布 式 数据 处 理 。 该 系统 由 Sector 分 布 式 文 
件 系统 和 Sphere 并 行 数据 处 理 框 架 "”'” 构成 。Sector 是 一 个 分 布 式 文件 系统 《DFS) ， 它 能 部 署 
在 很 大 范围 里 且 人 允许 用 户 通 过 高 速 网 络 连 接 ! 加 从 任何 位 置 管理 大 量 的 数据 集 。 通 过 在 文件 系统 
中 复制 数据 和 管理 副本 来 实现 容错 。 

由 于 当 放置 副本 时 ，Sector 知道 网 络 拓扑 结构 ， 它 也 能 提供 更 好 的 可 靠 性 、 可 用 性 和 访问 知 
吐 量 。 通 信 执 行 是 通过 用 户 数据 报 协议 (User Datagram Protocol, UDP) 进行 消息 传递 ， 通 过 用 
户 定义 类 型 (User Defined Type，UDT) "进行 数据 传输 。 显 然 ， 由 于 不 需要 建立 连接 ， 对 于 消 
息 传递 ，UDP 比 TCP 来 得 更 快 ， 但 是 如 果 Sector 用 在 互联 网 上 ， 这 也 很 可 能 成 为 一 个 问题 。 与 
此 同时 ，UDT 是 一 个 可 靠 的 基于 UDP 的 应 用 级 数据 传输 协议 ， 它 被 专门 设计 来 在 大 范围 高 速 网 
络 上 高 速 传输 数据 ""; 。 最 后 ，Sector 客户 端 提供 编程 API、 工 具 和 FUSE! 用户 空 间 文件 系统 
模型 。 

另外 ，Sphere 是 一 个 与 Sector 管理 的 数据 一 起 工作 的 并 行 数据 处 理 引 警 。 这 种 联合 允许 该 系 
统 对 作业 调度 和 数据 位 置 做 出 精确 的 决策 。Sphere 提供 了 一 个 编程 框架 ， 开 发 人 员 可 以 使 用 该 杠 
架 去 处 理 存储 在 Sector 中 的 数据 。 因 此 ， 它 允许 UDF 并 行 地 运行 在 所 有 输入 数据 段 上 。 一 旦 有 
可 能 (数据 位 置 )， 这 些 数据 段 就 在 它们 的 存储 位 置 被 处 理 。 故 障 数据 段 可 以 在 其 他 节点 重新 启 
动 ， 以 达到 容错 要 求 。 在 Sphere 应 用 程序 中 ,输入 和 输出 都 是 Sector 文件 。 通 过 Sector 文件 系统 
的 输入 /输出 交换 /共享 ， 多 个 Sphere 处 理 段 可 被 联合 起 来 去 处 理 更 为 复杂 的 应 用 "1 。 

Sector/Sphere 平台 -被 如 图 6-29 所 示 的 体系 结构 所 支持 ， 它 包括 4 个 组 件 。 第 一 个 组 件 是 
安全 服务 器 ， 它 负责 认证 主 服务 器 、 从 节点 和 有 用户。 我 们 也 有 可 以 认 作 基础 设施 核心 的 主 服 务 
器 。 主 服务 器 维护 文件 系统 元 数据 、 调 度 作业 并 响应 用 户 的 请 求 。Sector 支持 多 个 活跃 的 主 服务 
器 ， 它 们 可 以 在 运行 时 加 入 或 离开 以 及 管理 请 求 。 另 一 个 组 件 是 从 节点 ， 在 这 里 数据 被 存储 和 处 
理 。 从 节点 可 以 位 于 单个 的 数据 中 心 内 部 ， 或 者 通过 高 速 网 络 相连 的 多 个 数据 中 心 。 最 后 一 个 组 
件 是 客户 端 组 件 。 这 个 组 件 为 用 户 提供 访问 和 处 理 Sector 数据 的 工具 和 编程 API 

最 后 ， 需 要 指出 的 是 作为 这 个 平台 的 一 部 分 ， 一 个 新 的 组 件 已 经 被 开发 出 来 。 它 被 称 为 
Space”) ， 包 含 一 个 支持 基于 列 的 分 布 式 数据 表 的 框架 。 因 此 ， 表 被 按 列 存储 且 被 分 割 到 多 个 从 
节点 中 。 表 是 独立 的 且 它 们 之 间 不 支持 关系 。 支 持 一 个 简化 的 SQL 操作 集 ， 包 括 但 不 限于 表 的 
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安全 服务 器 主 服务 器 客户 端 
C )— SSL 一 (人 )}— SSL —C) 


数据 


OOOO 
0000 


从 节点 


图 6-29 Sector/Sphere 系统 体系 结构 
注 ， 由 GU 和 Grossman 提供 [102] 。 


建立 和 修改 、 键 值 对 的 更 新 和 和 查找， 以 及 选择 UDF 操作 。 

6.5.2.2 OpenStack 

在 2010 年 7 H, OpenStack'"*! E Bek Rackspace 和 NASA 提出 。 该 项 目 是 试图 建立 一 个 开源 
的 社区 ， 跨 越 技术 人 员 、 开 发 人 员 、 研 究 人 员 和 工业 来 分 享 资源 和 技术 ， 其 目标 是 创建 一 个 大 规 
模 可 伸缩 的 、 安 全 的 云 基础 设施 。 按 照 其 他 开源 项 目的 惯例 ， 整 个 软件 是 开源 的 且 仅 限 开 源 
API， 如 亚马逊 。 391 

HB, OpenStack 使 用 OpenStack Compute 和 OpenStack Sorage 的 解决 方案 ， 重 点 开发 两 个 方 
面 的 云 计算 来 解决 计算 和 存储 问题 。“ OpenStack 计算 是 创建 和 管理 大 规模 团体 虚拟 专用 服务 器 
的 云 内 部 结构 ”和 “OpenStack Object Storage 是 一 个 软件 ， 使 用 商用 服务 器 集群 去 存储 太 字 节 其 
至 拍 字 节 数 据 来 创建 元 余 可 伸缩 的 对 象 存储 ”。 最 近 ， 已 经 原型 化 一 个 镜像 库 。 镜 像 库 包含 一 个 
镜像 注册 和 发 现 服务 以 及 一 个 镜像 发 送 服务 。 它 们 一 起 向 计算 服务 发 送 镜像 ， 并 从 存储 服务 获 
得 镜像 。 这 个 开发 表明 该 项 目 正 在 努力 向 产品 组 合 里 集成 更 多 的 服务 。 

6.5.2.3 OpenStack Compute 

作为 计算 支持 努力 的 一 部 分 ，OpenStack"3 正 在 研发 一 个 称 为 Nova 的 云 计 算 结构 控制 器 ， 
CE Jaas 系统 的 一 个 组 件 。Nova 的 体系 结构 是 建立 在 零 共 享 和 基于 消息 传递 的 信息 交换 的 概念 
上 。 所 以 Nova 中 的 大 多 数 通 信和 是 由 消息 队列 所 推动 。 为 了 防止 在 等 待 其 他 响应 时 阻塞 组 件 ， 引 
入 了 延迟 对 象 。 这 样 的 对 象 包括 回调 函数 ,该 函数 在 收 到 一 个 响应 时 会 被 触发 。 这 和 并 行 计算 中 
已 经 建立 起 来 的 概念 非常 相似 ， 例 如 “futures”， 这 已 经 在 网 格 社区 中 的 一 些 项 目 (如 CoG Kit) 
中 应 用 。 

为 实现 零 共 享 范式 ， 整 个 系统 的 状态 保存 在 一 个 分 布 式 数据 系统 中 。 通 过 原子 事务 使 得 状 
态 更 新 保持 一 致 性 。Nova 用 Python 语言 来 实现 ， 同 时 利用 大 量 的 外 部 支持 函数 库 和 组 件 。 这 包 
括 boto, Python 编写 的 亚马逊 API, VAR Tornado、 一 个 在 OpenStack 中 用 来 实现 S3 功能 的 快速 
HTTP 服务 器 。 图 6-30 显示 了 OpenStack Compute 的 主要 体系 结构 。 在 这 个 体系 结构 中 ，API 服务 
器 从 boto 接收 HTTP 请 求 ， 把 命令 转 成 或 转自 API 格式 ， 并 向 云 控制 器 转发 请 求 。 

云 控制 器 维护 系统 的 全 局 状态 ， 确 保 通 过 轻 量 级 目录 访问 协议 (Lightweight Directory Access 
Protocol, LDAP) 与 用 户 管理 器 交互 时 的 授权 ， 同 S3 服务 和 管理 节点 相互 作用 ， 还 通过 一 个 队 
列 与 存储 工作 机 作用 。 此 外 ，Norva 集成 网 络 组件 来 管理 私有 网 络 、 公 有 IP 寻 址 、 虚 拟 专用 网 
( Virtual Private Network, VPN) 连接 ， 以 及 防火 墙 规 则 。 Ete FRA: 

© NetworkController 管理 地 址 和 虚拟 局 域 网 (Virtual LAN, VLAN) 分 配 。 

© RoutingNode 管理 公有 IP 到 私有 IP 的 NAT (Network Address Translator， 网 络 地 址 翻译 器 ) 

转换 ， 强 制 执 行 防 火 墙 规则 。 
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图 6-30 OpenStack Nova 系统 体系 结构 。5. 2 WHIT AMQP (高 级 消息 队列 协议 ) 


© AddressingNode 为 私有 网 络 运 行动 态 主 机 配置 协议 (Dynamic Host Configuration Protocol, 
DHCP) 服务 。 

e TunnelingNode 提供 VPN 连接 。 

网 络 状态 (在 分 布 式 对 象 存储 中 管理 ) 包含 以 下 内 容 : 

。 分 配给 一 个 项 目的 VLAN。 

e 在 一 个 VLAN 中 一 个 安全 群体 的 私有 子 网 分 配 。 

运行 实例 的 私有 IP 分 配 。 

一 个 项 目的 公有 IP 分 配 。 

。 一 个 私有 IP/ 运 行 实例 的 公有 IP 分 配 。 

6.5.2.4 OpenStack Storage 

OpenStack 存储 方案 是 在 很 多 相互 作用 的 组 件 和 概念 上 建立 起 来 的 ， 包 括 一 个 代理 服务 器 、 
一 个 环 、 一 个 对 象 服务 器 、 一 个 集 装 器 服务 器 、 一 个 账户 服务 器 、 副 本 、 更 新 者 和 审计 者 。 代 理 
服务 器 的 作用 是 使 查询 账户 、 集 装 器 或 者 OpenStack 储存 环 里 的 对 象 及 路 由 请 求 成 为 可 能 。 因 
此 ， 任 何 对 象 是 直接 通过 代理 服务 器 在 对 象 服务 器 和 用 户 之 间 来 回流 动 。 一 个 环 代表 磁盘 上 存 
储 的 实体 名 字 和 其 物理 位 置 的 映射 。 

存在 账户 、 集 装 器 和 对 象 的 单独 环 。 一 个 环 包括 使 用 区 域 、 设 备 、 分 区 和 副本 的 概念 。 于 是 
它 允 许 系统 能 够 处 理 故 障 ， 以 及 代表 着 一 个 驱动 器 、 一 台 服 务 器 、 一 个 机 架 、 一 个 交换 机 或 者 其 
至 一 个 数据 中 心 区域 的 隔离 。 在 集群 里 可 以 使 用 权重 来 平衡 驱动 器 里 每 个 分 区 的 分 配 ， 以 支持 
异 构 的 存储 资源 。 根 据 文档 , “对 象 服务 器 是 一 个 非常 简单 的 的 块 存储 服务 器 ， 它 能 存储 、 检 索 
和 删除 存储 在 本 地 设备 中 的 对 象 ”。 

对 象 以 二 进 制 文 件 形式 保存 ， 元 数据 存储 在 文件 的 扩展 属性 里 。 这 要 求 底层 的 文件 系统 围 
绕 对 象 服 务 器 构建 ， 这 常常 和 标准 Linux 安装 不 一 样 。 为 了 列 出 对 象 ， 可 以 使 用 集 装 器 服务 器 。 
集 装 器 列表 是 由 账户 服务 器 负责 的 。0OpenStack“Austin” Compute 和 Object Storage 的 第 一 个 版 本 
是 在 2010 年 10 H 22 日 发 行 的 。 该 系统 有 一 个 很 强大 的 开发 团队 。 

6.5.3 Manjrasoft Aneka 云 和 工具 机 

Aneka (www. manjrasoft com/) 是 一 个 由 Manjrasoft 公司 开发 的 云 计算 应 用 平台 ， 公 司 坐 落 于 
澳大利亚 墨尔本 。Aneka 是 为 私有 云 或 公有 云 上 并 行 和 分 布 式 应 用 的 快速 开发 和 部 署 而 设计 的 。 
它 提供 了 一 系列 丰富 的 API， 可 以 透明 地 利用 分 布 式 资源 ， 采 用 喜欢 的 编程 抽象 来 表示 各 种 应 用 
392 | 的 商业 逻辑 。 系 统管 理 员 可 以 利用 一 系列 的 工具 来 监视 和 控制 部 署 好 的 基础 设施 。 该 平台 可 以 
393 | 部 署 在 像 亚马逊 EC2 这 样 的 公有 云 上 ， 其 订阅 者 通过 互联 网 来 访问 ， 也 可 以 部 署 在 访问 受 限 的 
一 系列 节点 组 成 的 私有 云 上 ， 如 图 6-31 所 示 。 
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图 6-31 Aneka 体系 结构 和 组 件 
注 : 由 Manjrasoft 公司 Raj Buyya 提供 。 


Aneka 作为 一 个 工作 负载 的 分 配 和 管理 平台 ， 用 来 加 速 运行 于 Linux 和 Microsoft NET 框架 环 
境 下 的 应 用 。 和 其 他 负载 分 配 解决 方案 相 比 ，Aneka 有 如 下 一 些 关键 优势 : 

© 支持 多 种 编程 和 应 用 环境 。 

。 同时 支持 多 种 运行 时 环境 。 

。 拥有 快速 部 署 工具 和 框架 。 

© 基于 用 户 的 〈QoS/SLA) 需求 ， 能 够 利用 多 种 虚拟 机 和 物理 机 器 来 加 速 应 用 供应 

© 构建 在 Microsoft . NET 框架 之 上 ， 能 够 通过 Mono 支持 Linux 环境 。 394 

Aneka 提供 了 三 种 类 型 功能 ， 它 们 是 创建 、 加 速 和 管理 云 计 算 及 其 应 用 所 必需 的 ， 

1. 创建 : Aneka 包括 一 个 新 的 SDK， 它 把 SDK 和 工具 联合 起 来 让 用 户 能 够 迅速 开发 应 用 。 

Aneka 也 允许 用 户 创建 不 同 揭 运行 时 环境 ， 例 如 ， 通 过 利用 网 络 或 企业 数据 中 心 、 亚马逊 EC2 的 
计算 资源 创建 的 企业 /私有 云 ，Aneka 管理 的 企业 私有 云 和 来 自 亚马逊 EC2 的 资源 组 成 的 混合 云 ， 
或 使 用 XenServer 创建 和 管理 的 其 他 企业 云 。 
. 2. 加 速 : Aneka 支持 在 多 个 运行 时 环境 中 不 同 的 操作 系统 (比如 Windows 或 Linux/ UNIX A 
统 ) 下 快速 开发 和 部 署 应 用 程序 。Aneka 尽 可 能 地 使 用 物理 机 器 来 达到 本 地 环境 的 最 大 利用 率 。 
任何 时 候 当 用 户 设 定 QoS 参数 (如 期 限 ) 时 ， 或 者 如 果 企 业 资源 不 足以 满足 要 求 ，Aneka 支持 从 
AEZ (如 EC2) 动态 租赁 额外 的 能 力 ， 以 便 按时 完成 任务 ( 见 图 6-32), 

3. 管理 : Aneka 支持 的 管理 工具 和 功能 包括 一 个 GUI 和 来 设置 、 监 控 、 管 理 和 维护 远程 与 全 
BR Aneka 计算 云 的 API, Aneka 也 有 一 个 审计 机 制 和 管理 优先 权 以 及 基于 SLA/QoS 的 可 扩展 性 ， 
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图 6-32 Aneka 使 用 私有 云 资源 ， 并 动态 租赁 公有 云 资 源 


注 : 由 Manjrasoft 公司 提供 ,http://www. manjrasoft. com/ 。 


它 使 动态 供应 成 为 可 能 。 

下 面 是 Aneka 支持 的 三 个 重要 编程 模型 ， 可 以 用 于 云 计 算 和 传统 并 行 应 用 程序 : 

1. 线程 编程 模型 : 该 模型 是 最 好 的 解决 方法 ， 可 用 来 利用 计算 机 云 中 多 核 节点 的 计算 功能 。 

2. 任务 编程 模型 :该 模型 允许 快速 原型 和 实现 一 个 独立 的 任务 应 用 包 。 

3. MapReduce 编程 模型 : 在 6. 2. 2 节 中 已 讨论 过 。 

6.5.3.1 Aneka 体系 结构 

作为 一 个 云 应 用 平台 ，Aneka 的 特点 是 为 应 用 程序 提供 同 构 的 分 布 式 运行 时 环境 。 这 个 环境 
通过 将 托管 Aneka 容器 的 物理 节点 和 虚拟 节点 聚集 在 一 起 而 建成 。 容 器 是 一 个 轻 量 级 层次 ， 与 主 
机 环境 进行 交互 ， 管 理 部 署 在 一 个 节点 上 的 服务 。 和 主机 平台 的 交互 是 由 平台 抽象 层 (Platform 
Abstraction Layer, PAL) 调解 ， 在 它 的 实现 中 隐藏 了 不 同 的 操作 系统 的 所 有 有 异 构 性 。 

通过 PAL 使 运行 所 有 与 基础 设施 相关 的 任务 成 为 可 能 ， 如 性 能 和 系统 监控 。 这 些 活动 对 于 
确保 应 用 所 需 的 服务 质量 是 至 关 重 要 的 。PAL 和 容器 一 起 ， 代 表 了 服务 的 主机 环境 ， 实 现 了 中 间 
件 的 核心 功能 ， 组 成 一 个 动态 和 可 扩展 的 系统 。 可 用 的 服务 可 以 归 为 三 个 主要 类 别 : 

组 织 服务 : 组 织 服务 实现 了 云 基础 设施 的 基本 操作 。 这 些 服务 包括 : 高 可 用 性 和 故障 时 提高 
可 靠 性 、 节 点 关系 和 目录 、 资 源 供应 、 性 能 监控 和 硬件 档案 资料 。 

基础 服务 : 基础 服务 构成 了 Aneka 中 间 件 的 核心 功能 。 它 们 提供 了 一 套 基本 功能 , 增强 了 在 
云 里 应 用 的 执行 能 力 。 这 些 服务 给 基础 设施 提供 了 附加 价值 ， 并 且 对 于 系统 管理 员 和 开发 者 都 
是 有 用 的 。 在 这 个 类 别 里 ， 我 们 可 以 列举 出 : 存储 管理 、 资 源 预 留 、 报 告 、 审 计 、 计 费 、 服 务 监 
控 和 许可 制度 。 在 所 有 支持 的 应 用 模型 里 都 可 以 运行 这 个 级 的 服务 。 

应 用 服务 : 应 用 服务 直接 处 理应 用 的 执行 并 负责 为 每 一 个 应 用 模型 提供 合适 的 运行 时 环境 。 
他 们 为 几 个 应 用 运行 任务 〈 如 弹性 可 扩展 、 数 据 传 输 、 性 能 监控 、 审 计 和 计 费 ) 利用 基础 服务 和 
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组 织 服务 。 在 这 个 级 上 ，Aneka 在 支持 不 同 的 应 用 模型 和 分 布 式 编程 模式 上 显示 了 其 真实 潜力 。 
依靠 底层 和 服务 来 执行 应 用 ， 每 一 个 支持 的 应 用 模型 由 一 种 不 同 的 服务 集 所 管理 。 总 的 来 
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说 ， 每 一 个 应 用 模型 的 中 间 件 副本 至 少 有 两 个 不 同 的 服务 : 调度 与 执行 。 此 外 ， 特 定 的 模型 需要 


额外 服务 或 者 一 个 不 同类 型 的 支持 。Aneka 为 最 有 名 的 应 用 编程 模式 提供 支持 ， 如 分 布 式 线程 、 
任务 包 和 MapReduce。 

在 这 个 系统 中 可 以 设计 并 部 署 附加 服务 。 基 础 设施 就 是 这 样 添加 了 很 多 附加 特点 和 功能 而 
变 得 丰富 。SDK 为 快速 的 服务 原型 开发 提供 了 直接 的 接口 和 易 用 的 组 件 。 新 服务 的 部 署 和 集成 
非常 迅速 、 悄 无 声息 。 容 器 利用 Spring 框架 ，。 人 允许 对 类 似 服务 这 种 新 组 件 进行 动态 集成 。 

$6.11 Maya 绘图 实例 的 Aneka 应 用 

Aneka 已 在 生命 科学 、 工 程 和 创意 媒体 等 领域 创造 了 多 种 有 趣 的 应 用 。 利 用 Aneka 开发 的 各 
种 应 用 能 不 加 改变 地 运行 在 企业 或 公有 云 上 。 我 们 将 简要 介绍 一 个 使 用 Aneka 并 软件 在 工程 设计 
中 进行 高 速 泻 染 的 实例 研究 。 为 了 减少 时 间 ，GoFront 使 用 Aneka 并 在 他 们 公司 利用 计算 机 网 络 
建立 了 一 个 企业 云 ( 见 图 6-33) 。 作 为 中 国 南 方 铁路 的 一 个 成 员 ，GoFront 集团 是 中 国 领先 的 和 
最 大 的 电动 机 车 设备 研究 和 制造 商 。 


Shane Aneka Maya 泻 染 
















企业 云 


; FA 2: Aneka 





5—— 
Bt 
= 4000 iii 
2000 i 


: ad ude, Sk 
原始 机 车 设计 文件 “Be pl: 单个 服务 器 
(使 用 autodesk Maya) , 
直接 使 用 Maya 


| 图 形 模式 | 服务 器 5 
L Aneka 利 用 闲置 台式 机 (30) 


sh > Fi Nip 
4 核 服务 器 来 减少 任务 时 间 ， 从 天 到 小 时 


图 6-33 使 用 Aneka 在 GoFront 私有 云 上 绘制 机 车 设计 图 像 
注 : 由 Manjrasoft 公司 的 Raj Buyya 提供 。 


GoFront 集团 负责 设计 高 速 电 动机 车 、 地 铁 车 辆 、 城 市 交通 车 辆 和 动车 。 最 初 的 原型 设计 需 
要 使 用 Autodesk 的 Maya 绘图 软件 生成 的 高 质量 三 维 图 像 。 通 过 检查 三 维 图 像 ， 工 程 师 找 出 了 原 
始 设计 中 的 问题 ， 并 作出 了 合适 的 设计 改进 。 然 而 ， 这 样 的 设计 要 用 2 000 帧 图 像 描绘 场景 ， 需 
要 用 一 个 4 核 的 服务 器 花费 3 天 时 间 。 

为 了 节约 时 间 ，GoFront 使 用 了 Aneka 并 在 他 们 公司 利用 计算 机 网 络 建立 了 企业 云 。 他 们 利 
用 Aneka Design Explorer， 一 款 快 速 创建 参数 扫描 应 用 的 工具 ， 这 个 工具 在 不 同 的 数据 项 上 将 相 
同 的 程序 执行 了 很 多 次 《在 这 个 例子 中 ， 执 行 Maya 软件 来 描绘 不 同 的 图 像 )。 一 款 定制 的 
Design Explorer ( 称 为 Maya GUL) 已 经 用 于 Maya 绘图 。 Maya GUI 管理 各 种 参数 、 产 生 Aneka 任 
务 、 监 视 已 提交 的 Aneka 任务 并 收集 最 后 已 经 画 好 的 图 像 。 设 计 图 像 过 去 需要 3 KREZ (2 000 + 
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帧 ， 每 一 鸯 有 超过 5 种 不 同 的 摄影 角度 )。 只 使 用 20 个 节点 的 Aneka 云 ，GoFront 就 能 够 使 演 染 
时 间 从 开始 的 3 天 缩短 为 3 个 小 时 。 E 
6.5.3.2 虚拟 设备 

机 器 虚拟 化 提供 了 唯一 的 机 会 ， 突 破 了 软件 在 应 用 程序 和 主机 环境 之 间 的 依赖 性 。 近 年 来 ， 
由 于 为 商用 系统 开发 的 高 效 且 可 自由 获得 的 虚拟 机 监视 器 (例如 Xen、VMware Player, KVM 和 
VirtualBox) ， 资 源 虚拟 化 经 历 了 复兴 ,并且 得 到 微 处 理 器 公司 的 支持 (例如 Intel 和 AMD 的 虚拟 
化 扩展 ) 。 现 代 系 统 虚 拟 机 提供 了 更 好 的 灵活 性 、 安 全 性 、 隔 离 和 资源 控制 ， 同 时 支持 大 量 未 经 
修改 的 应 用 ， 在 网 格 计算 上 的 使 用 有 着 压倒 性 的 优势 。 网 格 应 用 也 需要 网 络 的 连通 性 ， 日 益 增 加 
的 NAT 和 卫 防火 墙 技术 打破 了 先前 互联 网 中 节点 对 等 的 早期 模式 ， 阻 碍 了 网 格 计算 系统 的 规划 
ARE. 

在 Aneka 中 ， 虚 拟 机 和 P2P 网 络 虚拟 化 技术 可 以 集成 为 一 个 可 自我 配置 的 、 预 包装 的 “ 虚 
拟 设 备 "， 以 使 在 异 构 、 广 域 分 布 式 系统 上 同 构 配 置 的 虚拟 集群 得 到 简单 部 署 。 虚 拟 设备 是 安装 
和 配置 好 整个 软件 栈 〈 包 括 操 作 系统 、 库 、 二 进 制 文件 、 配 置 文件 和 自动 配置 脚本 ) 的 虚拟 机 
镜像 ， 这 样 当 虚 拟 设备 实例 化 时 ， 给 定 的 应 用 可 以 即 开 即 用 地 工作 。 与 传统 的 软件 发 行 方式 相 
比 ， 虚 拟 设备 的 好 处 是 大 大 减少 了 软件 对 主机 环境 的 依赖 。 

对 于 大 多 数 VMM 存在 虚拟 机 转化 工具 ， 正 在 进行 标准 化 工作 来 进一步 增强 不 同 VMM 之 间 
的 合作 ， 使 得 多 个 平台 之 间 的 应 用 实例 化 是 无 颖 的 。 虚 拟 应 用 的 广 域 覆 盖 物 汇集 了 商用 硬件 的 
功能 ， 可 以 被 作为 局 域 网 来 编程 和 管理 一 一 即使 节点 分 布 在 多 个 网 域 之 上 。 预 配置 的 网 格 设备 
镜像 (www. grid-appliance, org) 能 以 对 用 户 透 明 的 方式 封装 复杂 的 分 布 式 系统 软件 ， 以 便 容易 部 

398] 署 。 对 于 现代 的 商用 服务 器 和 台式 机 有 运行 在 免费 VMM 上 的 网 格 设备 。 


6.6 参考 文献 与 习题 


在 本 章 中 已 经 给 出 核心 技术 的 详细 文献 ， 这 里 我 们 另外 提供 一 些 有 用 的 参考 文献 ， 其 中 的 
大 多 数 主题 都 很 新 ， 很 少 有 综合 性 的 整理 ， 在 这 个 快速 发 展 的 时 代 ， 主 要 的 商业 云 的 链接 也 经 常 
发 生变 化 ; 建议 读者 检查 各 大 网 站 的 最 新 链接 。 例 如 文献 [104 ~ 108 ] 。 文 献 [109] Chou 编写 
的 一 本 很 好 的 在 商业 和 技术 中 介绍 云 计算 的 讲义 。 文 献 [110 ~ 115] 介绍 了 各 种 云 服 务 。 文 献 
[110, 116 ~120] 讨 论 了 云 计算 的 好 处 和 机 会 。 LARL 28, 43, 73, 121 ~127] 中 研究 了 HPC 中 的 
云 技术 。 文 献 [26，28 ] 介绍 云 应 用 的 分 布 式 编程 范式 。 文 献 [25，41 ~43，74，75 ] 讨论 云 对 于 
数据 密集 型 计算 的 应 用 。 
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习题 


6.1 访问 GAE 网 站 ， Fak SDK, 阅读 Python 指南 或 Java 指南 后 开始 。 注 意 ，GAE 只 支持 Python、Ruby 和 
Java 编程 语言 。 该 平台 不 提供 任何 laas 服务 。 
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6.2 


6.3 


6.4 


6.5 


6.6 


6.7 


6.8 


a. 利用 GAE 平台 已 有 的 软件 服务 ， 例 如 Gmail, Docs 或 CRM， 开 发 一 个 具体 的 云 应 用 。 在 GAE 平台 
上 测试 运行 你 的 程序 。 
b 报告 你 的 应 用 开发 经 验 和 实验 结果 ， 报 告 时 可 选择 一 些 性 能 指标 ， 如 作业 排队 时 间 、 执 行 时 间 、 资 
源 利 用 率 ， 或 者 一 些 QoS 属性 (如 目标 完成 情况 、 成 功率 、 容 错 和 成 本 效率 ) 。 
c. 在 你 的 GAE 实验 中 改变 问题 规模 或 数据 集 大 小 以 及 平台 配置 来 学 习 可 扩展 性 和 效率 问题 。 
编写 一 个 运行 在 GAE 平台 的 程序 代码 ， 实 现 备份 存储 大 量 个 人 、 家 庭 或 公司 数据 和 记录 ， 例 如 ， 相 
片 、 视 频 、 音 乐 、 销 售 收据 、 文 档 、 新 闻 媒 体 、 存 货 、 市 场记 录 、 财 务 、 供 应 链 信息 、 人 力 资 源 、 公 
共 数 据 集 等 。 注 意 ， 在 这 里 需要 严格 的 隐私 保护 。 要 达到 的 另 一 个 目标 是 最 小 化 存储 成 本 。 在 第 4 章 
中 可 以 找到 使 用 GAE 的 接 人 路 径 、 软 件 开 发 工具 和 平台 信息 。 需 要 说 明 你 在 使 用 GAE 平台 中 的 代码 
开发 过 程 和 结果 。 
获取 使 用 亚马逊 Web 服务 的 设置 ， 教 师 可 以 使 用 亚马逊 提供 的 教育 服务 来 为 学 生 申 请 免费 的 教育 账 
户 ， 详 情 请 访问 http://aws. amazon. com/education/。 使 用 关系 数据 库 服务 来 测试 AWS 平台 的 SimpleDB 
应 用 程序 。 此 应 用 程序 可 能 类 似 习题 6. 1 和 6.2。 你 应 该 研究 系统 的 性 能 、 可 扩展 性 、 香 吐 晤 、 效 率 、 
资源 利用 率 、 容 错 和 成 本 效率 。 
设计 和 请 求 一 个 AWS 平 台 的 EC2 配置 ， 用 于 计算 两 个 阶 数 超过 50 000 的 矩阵 并 行 乘法 。 
a 报告 你 的 实验 结果 ， 包 括 执行 时 间 、 速 度 性 能 、 初 始 化 的 VM 实例 、 计 算 单元 和 存储 利用 率 ， 以 及 
服务 费用 。 
b. 同样 在 本 次 科学 云 实验 中 ， 你 还 可 以 研究 相关 问题 ， 如 可 扩 广 性 、 吞 吐 量 、 效 率 、 资 源 利用 率 ， 容 
错 和 成 本 效率 。 
É AWS 平台 上 为 亚马逊 S3 应 用 重 做 习题 6.4， 此 应 用 与 习题 6.1 和 6.2 类 似 ， 你 也 可 以 研究 性 能 、 可 
扩展 性 、 吞 吐 量 、 效 率 、 资 源 利用 率 、 容 错 和 成 本 效率 等 相关 问题 。 
研究 一 些 商 业 或 服务 行业 或 大 企业 在 AWS 平台 的 EC2 或 S3 上 的 应 用 程序 的 报告 。 在 Chou Ay BI. 中 
讲 诉 了 许多 案例 和 成 功 的 故事 。 例 如 ，Vertica Systems 在 DBMS (数据 库 管理 系统 ) 应 用 程序 中 使 用 
EC2。Eli Lilly 使 用 EC2 进行 药物 开发 ，Animoto 提供 在 线 服务 来 促进 个 人 视频 制作 。 联 系 几 家 这 类 服 
务 公司 ， 询 问 他 们 技术 实现 和 服务 细节 。 提 交 一 份 关 于 提高 可 选 计算 和 存储 服务 应 用 程序 的 建议 的 研 
究 报 告 。 
访问 微软 Windows Azure 开发 中 心 ， 你 可 以 下 载 Azure 开发 工具 集 来 运行 一 个 Azure 的 本 地 版 本 。 设 计 
一 个 应 用 环境 并 在 本 地 计算 机 上 测试 ， 例 如 你 的 台式 机 、 笔 记 本 电脑 或 大 学 的 工作 站 或 服务 器 。 报 告 
你 使 用 Azure 平台 的 实验 过 程 。 
在 MapReduce 编程 模型 下 ， 有 一 个 特殊 的 情况 只 能 实施 映射 阶段 ， 这 就 是 有 名 的 “map - only” 问 题 。 
这 一 实现 可 以 增强 现 有 的 应 用 程序 /二 进 制 ， 使 它们 通过 并 行 方式 运行 从 而 拥有 高 吞吐 量 ; 换 句 话说 ， 
它 帮助 单独 的 程序 利用 大 规模 的 计算 能 力 。 本 次 练习 的 目的 是 在 Linux 或 UNIX 环境 下 使 用 Twister 编 
写 一 个 Hadoop“map- only” 生 物 信息 应 用 程序 BLAST (NCBI BLAST + ; ftp://ftp. ncbi. nlm. nih. gov/ 
blast/executables/blast + /2. 2. 23/) 。 
基本 上 ，BLAST 二 进 制 在 每 个 分 配 输入 的 映射 任务 中 ， 在 “map-only” 程 序 范围 内 调用 。 这 里 的 
分 配 输入 是 映射 任务 键 值 对 ， 它 可 能 包含 原始 输入 、 输 出 文件 路 径 ， 或 者 其 他 任何 关于 二 进 制 本 质 的 
元 数据 。 然 后 每 个 映射 任务 在 运行 时 将 输入 传递 到 外 部 的 二 进 制 文件 ， 当 所 有 输入 传递 完毕 后 ， 
“map-only” 程 序 就 关闭 。 
MapOnly (<key, value>) { 
input -> keyValueModification (<key, value>); 
output -> invokeBlastBinary(input): 
return finish } 
根据 上 面 的 伪 码 ， 你 需要 实现 RunnerMap. java (http;//salsahpe, indiana. edu/tutorial/ source_code/ 
Hadoop- Blast-sketch. zip) 内 的 map( ) 接 口 ， 用 来 执行 外 部 的 Java 进程 ， 在 分 配 输 入 查询 中 的 每 次 映射 
任务 都 运行 单独 的 BLAST, “input. fa” 需要 分 成 块 《chunk[ 1 —n]. fa) 作为 一 组 输入 查询 ， 这 组 输入 
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查询 存储 在 本 地 磁盘 ， 你 可 能 需要 在 Hadoop Blast 程序 执行 前 上 载 到 HDFS, HDFS 目录 名 是 程序 参 
数 之 一 。 所 以 对 于 每 个 服务 器 ，Hadoop 框架 以 < key，value > 对 的 形式 分 配 一 个 输入 查询 ， 例 如 
< filename , file path on HDFS > 。 
如 果 你 使 用 提供 的 DataFileInputFormat. java 和 FileRecordReader. java 作为 InputFormatClass, Ill 

<key, value > 代码 已 经 生成 。BLAST 二 进 制 在 数据 库 中 查找 关于 输入 查询 的 匹配 记录 ， 这 一 数 
据 库 可 以 存储 在 共享 的 文件 系统 或 者 使 用 分 布 式 缓存 的 本 地 磁盘 ， 两 种 解决 方法 都 可 以 ， 取 决 于 
你 如 何 编写 程序 。 最 后 ， 你 需要 从 每 个 镜像 程序 中 收集 结果 并 把 它们 整合 到 一 个 输出 文件 
result. 但 。 另 外 ， 请 选择 一 个 适合 Linux OS 版 本 (1686/1386 或 x86_ 64) 的 BLAST + 二 进 制 (32 位 或 
64 位 )。 更 多 说 明 请 查看 SalsaHPC Hadoop BLAST 教程 ， 带 有 伪 码 (http://salsahpe. indiana. edu/tutorials/ 
hadoopblast. html) 。 
访问 Manjrasoft Aneka 软件 中 心 ， 网 址 www. manjrasoft. com/ 。 下 载 Aneka 软件 ， 在 你 的 大 学 /学 生 实验 室 使 用 
连接 局 域 网 的 计算 机 创建 企业 云 ， 运 行 Aneka 的 各 种 示例 程序 。 使 用 Aneka 任务 、 线 程 和 MapReduce 编程 
模型 编写 简单 的 并 行程 序 ， 运 行 的 时 候 改 变 服务 器 数量 从 2 到 20， 以 步 长 为 2 递增 。 

使 用 6. 6 节 描 述 的 学 术 / 开 源 程 序 包 Eucalyptus, Nimbus, OpenStack, OpenNebula, Sector/Sphere 重 做 

习题 6. 1 ~6.5 中 的 应 用 。 这 些 软 件 都 可 以 在 FutureGrid 网 站 《http://www. futuregrid. org) 获得 ， 网 

上 附 有 大 量 教 程 。 

尝试 在 两 个 或 三 个 云 平 台 (GAE, AWS 和 Azure) 上 运行 大 规模 矩阵 乘法 运算 程序 。 你 也 可 以 选择 其 

他 数据 密集 型 应 用 程序 (如 大 规模 搜索 或 商业 处 理应 用 ) 。 分 别 在 至 少 两 个 或 所 有 三 个 云 平台 上 实现 

上 述 应 用 。 主 要 目标 是 最 小 化 应 用 程序 的 执行 时 间 ， 次 要 目标 是 最 小 化 用 户 的 服务 成 本 。 

a. Æ GAE 平台 上 运行 服务 。 

b. 在 AWS 平台 上 运行 服务 。 

c. 在 Windows Azure 平台 上 运行 服务 。 

d. 比较 在 以 上 平台 的 计算 和 存储 成 本 、 设 计 经 验 和 实验 结果 。 报 告 它们 的 相关 性 能 和 QoS 测量 结果 。 

MapReduce 引擎 及 其 扩展 有 三 个 实现 : 谷歌 MapReduce, Apache Hadoop 和 Microsoft Dryad。 补充 完 成 

下 表 缺 失 的 的 14 个 表 项 并 在 6 个 技术 方面 比较 它们 的 相似 和 不 同 之 处 。 下 表 中 已 经 给 出 4 TRIE 

为 参考 答案 。 不 需要 详细 描述 表 项 的 细节 ， 只 需 填 写 语言 、 模 式 、 方 法 、 机 制 和 应 用 平台 的 名 字 。 








编程 环境 谷歌 MapReduce Apache Hadoop MapReduce 微软 Dryad 
使 用 的 代码 语言 和 编程 模型 
共享 目录 和 本 
数据 处 理 机 制 地 磁盘 
重新 执行 失效 任务 和 
故障 处 理 方法 低速 任务 的 重复 执行 








数据 分 析 高 级 语言 


Windows HPCS 
操作 系统 和 集群 环境 集群 


文件 传输 或 使 用 http 
链接 




















中 间 数 据 传输 方法 


使 用 在 Aneka 中 支持 的 MapReduce 编程 模型 ， 开 发 一 个 图 像 过 滤 程 序 ， 处 理 数 码 相机 拍摄 的 数 百 张 
照片 。 在 基于 Aneka 的 企业 云 上 做 可 扩展 性 实验 ,改变 计算 节点 /工作 机 数量 和 不 同 分 辨 率 或 文件 大 
小 的 图 像 ， 并 报告 实验 结果 。 

登录 http://www. futuregrid. org/tutorials ， 查 看 教程 ， 并 在 Hadoop 上 使 用 Eucalyptus、Nimbus， 以 及 
OpenStack、 OpenNebula, Sector/Sphere 三 者 中 的 至 少 一 个 ， 比 较 单 词 计 数 应 用 程序 。 

登录 http://www. salsahpc. org 和 http://www. iterativemapreduce. org/samples. html ， 查 看 教程 ， 比 较 指 
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导 上 的 Hadoop 和 Twister 的 具体 案例 ， 讨 论 它们 的 相对 优势 和 劣势 。 
下 面 程序 在 Hadoop 中 编写 ， 也 就 是 WebVisCounter。 跟 踪 程 序 或 者 在 你 可 以 访问 到 的 云 平台 上 运行 。 
分 析 这 个 Hadoop 程序 的 功能 ， 学 习 使 用 Hadoop E, 


import java.io.I0Exception; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapred.FileInputFormat; 
import org.apache.hadoop.mapred. FileQutputFormat; 
import org.apache.hadoop.mapred.JobClient; 

import org.apache.hadoop.mapred.JobConf; 

static class OSCountMapper 


} 


extends Mapper<LongWritable, Text, Text, IntWritable> { 
public void map(LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 

Text UserInfo = new Text(); 


Text OSversion = new Text(); 
int StartIndex, EndIndex, i; 
String line = value. toString(); 
StringTokenizer tokenizer = new StringTokenizer(line); 
while (tokenizer.hasMoreTokens() && i !=8) { 
i++; UserInfo.set(tokenizer.nextToken())} 
i=0; 
while (UserInfo.charAt(i) 1=";"){ 
if (UserInfo.charAt(i) !='('){StartIndex = i} 
iH}; 
EndIndex = i: 
OSversion = UserInfo.subtring(StartIndex, EndIndex); 
output.collect(OSversion, one) }; }; 


static class 0SCountReduce 

extends Reducer<Text, IntWritable, Text, IntWritable> { 

public void reduce(Text key, Iterable<IntWritable> values, 
Context context) { int sum=0; 


while (values.hasNext()) ( sum+= values.next().get() }; 
output.collect(key, new IntWritable(sum)); ); 


public static vold main(String[] args) throws Exception { 


JobConf conf = new JobConf(WordCount.class); 
conf.setJobName("O0SCount"); 
conf.setOutputKeyClass(Text.class): 
conf.setOutputValueClass(IntWritable.class); 
conf.setMapperClass(Map.class); 
conf.setCombinerClass(Reduce.class): 

conf .setReducerClass(Reduce.class); 
conf.setInputFormat(TextInputFormat.class) ; 

conf .setOutputFormat(TextOutputFormat.class); 
FileInputFormat.setInputPaths(conf, new Path(args[0])); 
FileQutputFormat.setOutputPath(conf, new Path(args[1])); 
JobClient.runJob(conf); }; 


6.17 Twister K 均值 以 迭代 方式 扩展 MapReduce 编程 模型 。 许 多 数据 分 析 技 术 需 要 迭代 计算 ,例如 ，K 均值 
集群 化 是 必须 使 用 多 个 迭代 的 MapReduce 来 完成 整体 计算 的 应 用 程序 。Twister 是 一 种 有 效 支 持 和 迭代 
MapReduce 计算 的 增强 MapReduce 运行 时 。 对 于 本 题 ， 学习 和 迭代 MapReduce 编程 模型 和 怎样 用 
Twister 实现 K 均值 算法 。 
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6. 18 DryadLINQ PageRank 是 有 名 的 链接 分 析 算 法 ， 它 计算 网 页 超 链 接 集合 的 每 个 元 素 的 数值 ， 这 些 值 反 映 
了 随机 访问 该 网 页 的 概率 。 由 于 大 规模 Web 图 中 的 迭代 结构 和 随机 访问 模型 ， 很 难 在 MapReduce 中 
高 效 和 可 编程 地 实现 PageRank, DryadLINQ 提供 了 类 似 SQL 的 查询 API， 帮 助 程序 员 不 太 费 力 地 实现 
PageRank。 此 外 ，Dryad 基础 设施 以 一 种 简单 的 方法 帮助 扩展 应 用 程序 。 本 题 将 帮助 你 学 习 如 何 用 
DryadLINQ 实现 简单 的 PageRank 应 用 。 

6.19 利用 Aneka 中 支持 的 线程 编程 模型 ， 开 发 一 个 阶 数 大 于 500 的 两 个 超大 方 阵 的 并 行 乘法 程序 。 做 可 扩 
展 性 实验 ， 每 次 以 100 递增 ， 从 500 ~ 1 000 改变 矩阵 阶 数 ， 在 基于 Aneka 的 企业 云 上 每 次 以 10 递增 ， 
从 10 ~50 改变 计算 节点 /服务 器 ， 并 记录 结果 。 

6.20 分 别 用 Pig Latin 和 “赤裸 的 ”Hadoop 来 实现 你 的 老师 指定 的 数据 密集 型 应 用 ， 并 比较 。 讨 论 它们 的 
相关 优点 各 缺点。 
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分 三 章 展 望 了 基于 网 络 的 分 布 式 计算 的 未 来 发 展 趋势 。 第 7 章 履 盖 计 算 网 格 和 数据 网 格 ， 

Li AeLEA MHRPRALRREMS, Rite MAME, Rowse RMRE 
际 P2P 系统 。 最 后 ， 我 们 介绍 了 用 于 构建 物 联 网 的 传感器 网 络 、RFID 和 全 球 定位 系统 (GPS), 4 
会 网 络 是 Web 规模 的 服务 应 用 。 我 们 讨论 了 普 适 网 格 、P2P 系统 和 未 来 互联 网 应 用 的 云 。 
第 7 章 网 格 计算 系统 和 资源 管理 

本 章 主 要 介绍 了 计算 /数据 网 格 中 的 设计 原理 、 平 台 体 系 结 构 、 中 间 件 支持 、 资 源 管理 和 服 
务 标准 ， 研 究 了 12 中 网 格 体系 结构 及 其 软件 环境 ， 包 括 TeraGrid, EGEE, DataGrid, ChinaGrid, 
BOINC 和 Grid’5000 等 。 详 细 讨 论 了 几 种 网 格 中 间 件 包 : Condor-G、SGE、Globus Toolkit 与 CCSP, 
此 外 ， 还 讨论 了 可 信 网 格 计 算 所 需 的 安全 基础 设施 ， 描 述 了 大 规模 网 格 计算 中 负载 刻画 和 性 能 
预测 的 自 适 应 方法 ， 并 且 对 比 描述 了 过 去 和 现在 的 网 格 项 目 与 新 兴 技 术 。 

本 章 主 要 由 武 永 卫 和 黄 铠 教授 共同 撰写 ，Rajkumar Buyya 撰写 了 7.3.4 节 。 郑 纬 民 教 授 和 徐 
志 伟 研究 员 提 供 了 技术 帮助 。 
第 8 章 对 等 计算 和 获 盖 网 络 

P2P 履 盖 网 络 是 构建 于 互联 网 上 的 虚拟 网 络 ， 由 大 量 的 边缘 客户 端 计算 机 组 成 。 本 章 首先 介 
绍 非 结构 化 覆盖 网 络 、 结 构 化 徐 盖 网 络 和 混合 履 盖 网 络 的 基本 概念 和 属性 ; 其 次 研究 分 布 式 哈 
项 表 〈DHT) 的 快速 路 由 和 邻近 性 优化 操作 ; 再 次 讨论 P2P 网 络 的 容错 和 抗 扰动 技术 ， 从 而 提 
高 可 靠 性 。P2P 网 络 已 被 广泛 应 用 于 分 布 式 文件 共享 和 内 容 分 发 中 ， 针 对 这 些 应 用 本 章 最 后 研究 
基于 信誉 系统 和 内 容 污 染 技 术 的 信任 管理 和 版 权 保 护 方 法 。 此 外 ， 本 章 通 过 例子 来 说 明 PP 网 
络 的 设计 原理 和 P2P 协议 在 实际 系统 中 的 应 用 。 

本 章 由 李 振 宇 和 黄 铠 教授 共同 撰写 ， 中 国 科 学 院 的 谢 高 岗 提 供 了 技术 帮助 。 
SIS 普 适 云 计 算 、 物 联网 与 社会 网 络 

本 章 介 绍 了 云 和 互联 网 计算 的 未 来 发 展 趋 势 。 我 们 介绍 了 系统 性 能 的 评价 指标 和 开放 网 络 
系统 的 安全 保证 。 我 们 检测 了 由 IBM, Salesforce, SGI, Manijarsoft, NASA 和 CERN 构建 的 一 些 
公有 云 和 私有 云 。 我 们 还 介绍 了 一 些 基 准 测试 结果 和 网 格 与 云 及 其 变种 的 典型 应 用 。 我 们 讨论 
了 物 联 网 及 传 感 网 络 、 REID 跟踪 和 全 球 定位 系统 方面 的 关键 技术 。 此 外 ， 还 讨论 了 Web 规模 社 
会 网 络 及 其 对 未 来 互联 网 的 影响 。 

本 章 主 要 由 黄 铠 教授 撰写 ，Judy Qu 参与 了 部 分 内 容 的 撰写 (9.2.1 节 和 9.2.5 节 )。Vikram 
Dixit、 秦 中 元 和 董 开 坤 帮助 提供 了 一 些 原始 材料 。 


第 7 章 


Distributed and Cloud Computing, 1E 


网 格 计算 系统 和 资源 管理 





本 章 主要 介绍 如 何 为 超级 计算 机 、 服 务 器 集群 和 数据 中 心 的 集成 网 络 上 的 分 布 式 计算 构建 
网 格 系统 。 首 先 ， 我 们 考察 了 开放 网 格 服务 体系 结构 ， 研 究 了 12 种 网 格 体系 结构 及 其 软件 环境 ， 
包括 TeraGrid, EGEE, DataGrid, ChinaGrid, BOINC 和 Grid’5000 等 。 通 过 描述 这 些 实例 ， 我 们 表 
明 网 格 设计 原则 、 服 务 模型 与 实现 技术 。 几 种 网 格 中 闻 件 包 : 深入 讨论 了 Condor-G, SGE, 
Globus Toolkit 与 CGSP。 最 后 ， 我 们 讨论 了 网 格 趋势 和 安全 设施 ， 并 比 描述 了 过 去 与 现在 的 网 格 
项 目 与 新 兴 技术 。 


7.1 网 格 体 系 结构 和 服务 建 模 


网 格 是 一 个 元 计算 基础 设施 ， 汇 聚 计算 机 (个 人 电脑 、 工 作 站 、 服 务 器 集群 、 超 级 计算 机 、 
笔记 本 电脑 、 移 动 计算 机 、PDA 等 ) 形成 计算 、 存 储 和 网 络 资源 的 集合 ， 以 解决 大 规模 计算 问 
题 或 加 快 注册 用 户 与 用 户 组 信息 检索 的 速度 。 租 用 硬件 、 软 件 、 中 间 件 、 数 据 库 、 仪 器 与 网 络 作 
为 计算 工具 ， 实 现 了 硬件 和 软件 及 特殊 用 户 软 件 间 的 斐 合 。 其 中 不 错 的 例子 包括 昂贵 专用 软件 
的 按 需 租用 和 人 类 基因 数据 库 的 透明 访问 。 

网 格 计算 的 目的 是 探索 大 规模 计算 问题 的 快速 解决 方案 。 该 目标 与 第 2 章 学 习 的 计算 机 集群 
和 大 规模 并 行 处 理 器 (MPP) 系统 是 一 致 的 。 然 而 ， 网 格 计算 利用 了 散落 在 某 个 国家 或 全 球 的 
现 有 计算 资源 。 在 网 格 中 ， 属 于 不 同 组 织 的 资源 聚集 在 一 起 ， 在 集体 应 用 中 被 许多 用 户 共 享 。 网 
格 需 大 量 使 用 企业 、 组 织 和 政府 之 间 的 LAN/WAN 资源 。 虚 拟 组 织 或 虚拟 超级 计算 机 均 是 源 自 网 
格 或 云 计 算 的 新 概念 。 它 们 都 是 由 虚拟 资源 动态 配置 的 ， 并 不 受 任何 单一 节点 用 户 或 本 地 管理 
员 的 完全 控制 。 

7.1.1 网 格 历史 与 服务 类 别 

基于 网 络 的 分 布 式 计 算 越 来 越 受 互联 网 用 户 的 欢迎 。 回 顾 一 下 ,互联 网 在 20 世纪 80 年 代 出 
现 ， 采用 telnet:// 协 议 提供 计算 机 到 计算 机 的 连接 。Web 服务 出 现 于 20 世纪 90 年 代 , 采用 
http:// 协 议 建立 了 Web 页 面 之 间 的 联系 。 自 从 20 世纪 90 年 代 以 来 ， 网 格 渐渐 用 于 建立 共享 资 
源 池 ， 被 用 于 直接 联系 许多 跨 机 器 平台 的 互联 网 应 用 ， 以 消除 孤立 的 资源 。 在 未 来 ， 我 们 可 以 制 
定 诸如 “grid://” 和 “cloud://” 的 升级 协议 ， 实 现 更 大 资源 共享 的 社会 化 网 络 空 间 。 

网 格 的 想法 由 Ian Foster, Carl Kesselman 和 Steve Tuecke 在 2001 年 一 篇 文章 "中 提出 。 因 为 

他 们 的 基础 工作 ， 他 们 被 公认 为 网 格 之 父 。DARPA 支持 的 Globus 项 目 促 进 网 格 技术 走向 成 熟 ， 
为 网 格 计算 提供 了 丰富 的 软件 和 中 间 件 工具 集合 。2007 年 ， 云 计算 的 概念 被 提出 ， 它 采用 虚拟 
化 数据 中 心 来 扩展 网 格 计 算 。 在 之 前 的 章节 中 ， 我 们 介绍 了 主要 的 网 格 类 别 ， 并 回顾 了 15 年 来 
的 网 格 服务 进化 过 程 。 

网 格 不 同 于 传统 的 HPC 集群 。 集 群 节点 是 更 加 同 构 的 机 器 ， 可 以 更 好 的 协作 。 网 格 节 点 是 
分 布 在 不 同 地 点 的 异 构 计 算 机 ， 它 们 松散 耦合 在 一 起 。 在 2001 年 ，Forbes Magazine 提倡 使 用 大 
规模 全 球 网 格 (Great Global Grid, GGG) 作为 新 型 全 球 基础 设施 。GGG 由 我 们 使 用 了 很 多 年 的 
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万 维 网 (World Wide Web, WWW) 技术 进化 而 来 。4 种 主要 的 网 格 计算 系统 族 采 用 了 Forbes 
GGG 分 类 方式 ， 如 表 7-1 所 示 。 在 接 下 来 的 章节 ， 我 们 将 学 习 表 中 所 列 的 部 分 网 格 。 
#7-1 GGG 的 4 种 网 格 族 
网 格 类 别 具有 代表 性 的 网 格 系统 及 其 出 处 


TeraGrid (美国 )，EGEE (欧洲 ) DataGrid (欧洲 ) Grid’5000 (法 国 ) ChinaGrid (中 国 ) ， 
NAS (NASA), LCG (Cem), e-Science (英国 )，D-Grid (Nordic), FutureGrid (美国 ) ， 等 等 








计算 网 格 或 数据 网 格 








Semantic Grid, Ontology Platform, BOINC (伯克利 )，D4Science，Einsten@ Home, Information 


信息 网 格 或 知识 网 格 Power Grid (NASA) 





商业 网 格 
P2P/ 志 愿 者 网 格 





BEinGrid (欧洲 ) HP eSpeak, IBM WebSphere, Sun Grid Engine, Microsoft. NET， 等 等 
SETI@ Home, Parasic Grid, FightAIDS@ Home, Foldong@ Home, GIMPS, %4% 











7.1.1.1 4 种 网 格 服务 族 

当今 大 多 数 网 格 系统 为 计算 网 格 或 数据 网 格 ， 其 中 较为 知名 的 例子 是 美国 的 NSF TeraGrid 和 
欧盟 的 DataGrid。 信 息 网 格 或 知识 网 格 属于 另 一 种 网 格 类 别 ， 用 于 知识 管理 和 分 布 式 本 体 处 理 。 
语义 Web， 也 称 为 语义 网 格 ， 也 属于 该 族 。 本 体 平 台 分 为 信息 网 格 或 知识 网 格 。 其 他 信息 /知识 
网 格 有 伯克利 的 BOINC 和 NASA 的 Information Power Grid, 

在 商业 范畴 内 ， 我 们 看 到 另 一 个 族 ， 称 为 商业 网 格 ， 用 于 商业 数据 /信息 处 理 ， 其 中 以 
HP eSpeak, IBM WebSphere, Microsoft. NET 和 Sun One 系统 为 代表 。 部 分 商业 网 格 转化 为 互联 
网 云 。 之 前 的 网 格 类 别 包 含 一 些 网 格 扩展 ， 如 P2P 网 格 与 寄生 网 格 。 本 章 主 要 讨论 计算 网 格 
或 数据 网 格 ， 商 业 网 格 只 作 简 要 介绍 。 在 第 8 章 中 ， 我 们 将 进一步 比较 P2P 网 络 与 P2P 网 格 
及 网 格 。 

7.1.1.2 网 格 服务 协议 栈 

为 了 将 网 格 平台 所 需 的 资源 集合 在 一 起 ， 一 种 分 层 式 体系 结构 如 图 7-1 所 示 。 其 中 顶层 对 应 
运行 于 网 格 系统 中 的 用 户 应 用 程序 。 用 户 应 用 程序 需要 包括 计算 和 通信 集合 支持 的 服务 层 。 下 
面 的 一 层 由 硬件 和 软件 资源 组 成 ， 用 于 运行 操作 集合 中 的 用 户 应 用 程序 。 连 接 层 提 供 了 特定 资 
源 互 连 ， 连 接 可 以 直接 建立 在 物理 网 络 上 ， 也 可 以 使 用 虚拟 网 络 技术 建立 。 








连接 服务 


网 格 组 织 
网 格 服务 协议 栈 互联 网 协议 
图 7-1 分 层 网 络 服务 协议 及 其 与 互联 网 服务 协议 的 关系 


连接 层 (connectivity) 需 支 持 网 格 组 织 ， 包 括 网 络 连接 和 虚拟 专用 信道 。 组 织 层 包括 所 有 计 
算 资 源 、 存 储 系统 、 目 录 、 网 络 资源 、 传 感 器 及 其 网 络 连 接 。 连 接 层 允许 组 织 层 资源 之 间 的 数据 
交换 。 这 五 层 网 格 体系 结构 与 互联 网 分 层 协议 栈 密切 相关 ， 如 图 7-1 的 右 侧 所 示 。 组 织 层 与 互联 
网 栈 中 的 链 路 层 相对 应 ， 连 接 层 被 网 络 与 互联 网 栈 的 传输 层 所 支持 。 互 联网 应 用 层 支持 上 面 的 
三 个 层次 。 
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7.1.1.3 网 格 资源 

表 7-2 总 结 了 实现 网 格 计算 所 需 的 典型 资源 。 许 多 现 有 协议 (IP, TCP, HTTP, FTP 和 
DNS) 或 一 些 新 的 通信 协议 可 以 用 来 路 由 与 传输 数据 。 资 源 层 负 责 单一 资源 共享 ， 需 要 一 个 接口 
来 约束 本 地 资源 的 静态 结构 和 动态 状态 。 网 格 应 该 能 够 接受 资源 请 求 ， 协 调 服务 质量 (QoS), 
并 完成 用 户 应 用 程序 中 的 特定 操作 。 


表 7-2 网 格 资源 聚集 的 控制 操作 与 询问 














资 源 控制 操作 询 问 
计算 资源 启动 、 监 控 与 控制 合成 进程 的 执行 ， 控制 资 | ”硬件 和 软件 特征 ; 相关 负载 信息 : 当前 负载 和 
源 : 提前 预定 队列 状态 

存储 资源 存放 并 获取 文件 ; 控制 资源 分 配 与 数据 传输 : 硬件 和 软件 特征 ;相关 负载 信息 ; 可 用 空间 和 
提前 预定 带宽 利用 率 

网 络 资源 控制 资源 分 配 网 络 特征 与 负载 

代码 库 管理 版 本 源 和 对 象 代码 软件 文件 和 编译 支持 

服务 目录 执行 目录 查询 与 更 新 操作 : 关系 数据 库 服务 命令 信息 与 协议 








连接 层 处 理 资源 集 之 间 的 交互 。 该 层 实 现 了 诸如 资源 发 现 、 协 同 分 配 、 调 度 、 代 理 、 监 控 和 
诊断 等 功能 。 其 他 所 需 功 能 包括 复制 、 允 许 网 格 编程 、 工 作 负载 管理 、 合 作 、 软 件 发 现 、 访 问 授 
权 ， 以 及 社区 记 账 与 支付 。 应 用 层 包括 主要 用 户 程 序 。 这 些 应 用 使 用 明确 定义 的 API (应 用 编程 
接口 ) 和 SDK (Software Development Kit， 软 件 开 发 工具 包 ) 与 其 他 层 组 件 交 互 。 

7.1.2 CPU 清除 和 虚拟 超级 计算 机 

在 这 一 节 中 ， 我 们 将 描述 本 地 和 远程 聚集 网 格 资源 的 过 程 。 接 下 来 ， 我 们 会 介绍 动态 链接 网 
格 至 虚拟 组 织 的 过 程 。 事 实 上 ， 近 几 年 网 格 和 云 的 区 别 变 得 模糊 。 传 统 上 ， 网 格 由 分 配 的 资源 静 
态 组 成 ， 而 云 由 预 分 配 的 资源 动态 构成 。 由 于 虚拟 化 也 适用 于 网 格 组 件 ， 一 些 包含 数据 中 心 的 网 
格 变 得 越 来 越 像 云 。 

Foster A" 比较 了 网 格 问题 与 生物 学 中 的 解剖 问题 。 应 用 程序 用 户 希 望 网 格 被 设计 成 灵 
活 、 安 全 和 协调 的 资源 ， 可 被 个 人 、 机 构 与 虚拟 组 织 共 享 。 网 格 资源 可 能 来 自 于 两 个 可 能 的 来 
源 。 一 方面 ， 大 规模 高 性 能 计算 机 网 格 可 由 政府 部 门 和 研究 机 构 超 级 计算 机 中 心 内 的 计算 机 组 
成 。 另 一 方面 ， 可 以 形成 一 个 “虚拟 ”网 格 ， 随 意 地 选择 大 量 的 普通 公民 拥有 的 小 型 商业 计算 
机 ,这些 公 民 自 愿 分 享 计算 机 的 空闲 周期 ， 以 供 其 他 用 户 实现 崇高 事业 。 

7.1.2.1 CPU 清除 与 虚拟 超级 计算 机 

公共 网 格 和 虚拟 网 格 都 可 以 建立 在 大 规模 或 小 型 机 器 上 ， 这 些 机 器 松散 地 耦合 在 一 起 ， 以 
满足 应 用 程序 的 需求 。 网 格 在 分 布 式 计算 的 很 多 方面 不 同 于 传统 的 超级 计算 机 。 超 级 计算 机 如 
E] Top500 名 单 中 的 MPP， 由 紧 耦 合 操作 组 建 ， 更 为 同 构 ， 而 网 格 多 采用 运行 非 交 互 负 载 的 异 构 
节点 ， 这 些 网 格 负载 可 能 涉及 大 量 的 文件 与 个 人 用 户 。 网 格 地 理 上 分 散 ， 更 具 扩 展 性 和 容错 能 
力 ， 相 较 于 超级 计算 机 显著 降低 了 操作 成 本 。 

使 用 计算 机 网 络 中 闲置 资源 创建 一 个 “网 格 ” 的 概念 称 为 CPU 清除 。 实 际 上 ， 虚 拟 网 格 建 
立 在 大 量 台 式 计算 机 上 ,使 用 了 它们 夜间 空闲 周 期 或 不 活路 时期， 其 提供 商 是 自愿 的 普通 公民 。 
实际 上 ， 这 些 客户 端 主机 除了 提供 CPU 周期 ， 还 提供 了 一 些 磁盘 空间 、RAM 和 网 络 带 宽 。 目 
前 ,许多 志愿 者 使 用 CPU 清除 模型 构建 计算 网 格 。 最 著名 的 例子 是 SETI@ Home’, #2001 年 9 
A, RAT 300 多 万 台 计 算 机 ， 达 到 23. 37Tflops 的 性 能 。 近 期 的 例子 包括 BONC” 和 Folding@ 
Home'" | 等。 实际 上 ， 这 些 虚 拟 网 格 能 够 被 看 做 虚拟 超级 计算 机 。 
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例 7.1 BONIC: 伯克利 网 络 计算 开放 基础 设施 

BOINC 是 用 于 运行 志愿 者 计算 项 目的 开放 基础 设施 。 这 是 加 州 大 学 伯克利 分 校 (http:// 
boine. berkeley. edu”) 的 一 个 活跃 的 网 格 研究 项 目 。BOINC 为 志愿 者 计算 和 网 格 计算 提供 了 开源 
软件 。 其 想法 是 利用 参与 者 计算 机 的 空闲 时 间 ， 用 于 崇高 事业 或 学 术 研 究 。 这 些 用 户主 机 运行 通 
用 的 Windows, Mac 和 Linux 操作 系统 ， 执 行 很 多 有 用 的 应 用 程序 ， 来 治疗 疾病 、 研 究 全 球 气候 
变 暧 、 发 现 脉 冲 信 和 号， 还 可 以 做 许多 其 他 有 意义 的 科研 项 目 。 

根据 2011 年 4 月 7 日 的 报告 ，BOINC 项 目 有 321 471 名 志愿 者 ， 共 提供 了 516 440 合计 算 机 。 
24 小 时 的 平均 性 能 达到 5. 634Pflops。 使 用 BOINC 的 网 格 计算 可 能 涉及 科学 家 、 大 学 和 公司 。 目 
前 ，BOINC 项 目 涵盖 以 下 公共 网 格 服务 ; 留言 板 、 电 子 邮 件 列表 、 论 文 与 会 话 、 招 聘 和 坎 件 开 
发 等 。2011 年 ，BOINC 平台 中 超过 620 7 & HALA World Community Grid 的 成 员 ， 这 已 超过 了 
最 快 的 超级 计算 机 (Tianhe-1A)。 同 样 ， 在 2009 年 3 月 7 日 ，Folding@ Home 项 目 被 报道 已 超过 
350 000 E HLA, tf X 5Pflops! 。 = 

7.1.2.2 网 格 资源 聚集 

在 网 格 或 云 资源 聚集 的 过 程 中 ， 几 个 假设 如 下 。 第 一 ， 计 算 节 点 和 网 格 的 其 他 必要 资源 并 不 
随意 加 入 或 离开 这 个 系统 ， 除 非 网 格 中 发 生 了 一 些 严 重 错误 。 第 二 ， 云 资源 主要 由 大 规模 数据 中 
心 提 供 。 由 于 在 数据 中 心中 ， 安 全 性 和 可 靠 性 是 非常 严密 的 ， 故 资源 行为 是 不 可 预知 的 。 第 三 ， 
虽然 P2P 系统 中 的 资源 是 随意 分 配 的 ， 但 是 我 们 可 以 构建 P2P 网 格 ， 用 于 分 布 式 文件 共享 、 内 
容 传递 、 游 戏 和 娱乐 应 用 。 一 些 成 员 的 加 入 或 离开 对 PP 网 格 系统 功能 几乎 没有 影响 。 

我 们 设想 在 全 局 情况 下 ， 网 格 资源 的 聚集 过 程 。 和 硬件、 软件、 数据 库 和 网 络 资源 R， 分 散在 
世界 各 地 。 这 些 开 放 资 源 的 可 用 性 和 规格 由 网 格 信息 服务 (Grid Information Service, GIS) 提供 。 
网 格 资源 中 介 协 助 花 费用 户 分 配 可 用 资源 ， 其 中 ， 多 个 中 介 可 以 竞争 服务 用 户 。 同 时 ， 多 个 GIS 
可 能 在 资源 范围 内 相互 重 春 。 在 计算 机 数据 库 、 仪 器 与 特定 应 用 所 需 的 人 为 操作 相互 耦合 后 ， 新 
型 网 格 应 用 得 以 运行 。 应 该 指出 的 是 ， 当 今 网 格 计算 应 用 不 再 局 限于 使 用 高 性 能 计算 机 系统 。 高 
吞吐 量 系 统 〈 如 云 ) 在 商业 服务 中 更 为 需要 。 

7.1.2.3 虚拟 组 织 

网 格 是 一 个 整合 共享 资源 的 分 布 式 系统 ， 以 构建 虚拟 组 织 (Virtual Organization, VO), K 
VO 提供 了 多 个 物理 组 织 上 的 动态 协作 。 这 些 由 真实 组 织 提供 的 虚拟 资源 是 自主 管理 的 。 网 格 必 
须 处 理 VO 的 信任 关系 。 网 格 应 用 改变 了 负载 与 资源 需求 。 一 个 灵活 的 网 格 系统 应 该 被 设计 为 可 
适应 不 同 的 负载 。 在 现实 中 ， 物 理 组 织 包括 真正 的 公司 、 大 学 或 政府 机 构 。 这 些 真 实 的 组 织 通 常 
具有 一 些 共同 的 目标 。 

例如 ， 一 些 研 究 机 构 和 医院 可 能 一 起 承担 具有 挑战 性 的 课题 ， 去 开发 新 型 抗 况 药 物 。 另 一 个 
具体 的 例子 是 ， 之 前 IBM、 苹 果 和 摩托 罗拉 合资 开发 了 PowerPC 处 理 器 及 其 支持 软件 。 合 作 经 营 
基于 VO 模型 ， 而 网 格 绝对 可 以 促进 VO 概念 。 但 是 ， 合 作 经 营 需要 所 有 参与 者 的 资源 和 劳动 。 
下 例 显 示 了 两 个 VO 或 网 格 配置 如 何 由 三 个 物理 组 织 形成 。 

例 7.2 虚拟 组 织 的 动态 构建 

一 种 新 型 药物 开发 课题 需要 研究 所 的 分 子 模拟 软件 和 医院 的 临床 数据 库 。 与 此 同时 ， 计 算 
机 科学 家 需要 在 超级 计算 中 心 的 Lin 集群 上 完成 生物 序列 分 析 。 三 个 组 织 中 的 成 员 贡 献 它们 全 
部 或 部 分 硬件 或 软件 资源 ， 以 构建 一 个 VO， 如 图 7-2 所 示 。 这 里 我 们 展示 了 两 个 VO 如 何 由 三 
个 标记 为 “A”、“B” 和 “C” 的 物理 组 织 形 成 。 

每 个 物理 组 织 拥有 一 些 资源 ， 如 计算 机 、 存 储 、 仪 器 和 数据 库 。 三 个 组 织 相 互 协作 ， 实 施 两 
MES: 新 型 喷气 式 客机 的 研发 和 新 型 药物 的 探索 。 每 个 物理 组 织 提供 部 分 资源 用 于 药物 研发 
的 “X”VO， 以 及 用 于 飞机 研发 的 “Y”VO。 物 理 组 织 可 能 会 在 轻 负载 的 情况 下 ， 把 它们 的 可 
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用 资源 全 分 配给 一 个 VO。 
虚拟 组 织 
X 


真实 组 织 
A 


虚拟 组 织 
Y 









initia 
0 
fA, WS, Wi 


真实 组 织 L bite \ 真实 组 织 
6 让 $ 





B 


o 真实 组 织 CERNIT 虚拟 组 织 
| We 


图 7-2 两 个 VO (标记 为 X 和 Y) 由 三 个 物理 组 织 (A, BAC) 提供 的 特定 资源 组 成 


所 有 者 也 可 以 修改 分 配给 指定 VO 的 集群 服务 器 数量 。 参 与 者 采用 特殊 服务 协议 动态 加 入 或 

离开 VO。 一 个 新 的 物理 组 织 也 可 能 加 入 一 个 现 有 的 VO。 一 旦 某 个 参与 者 的 作业 完成 ， 它 就 可 以 

i 离开 VO。VO 中 资源 的 动态 性 给 网 格 计算 带 来 了 巨大 的 挑战 。 资 源 必 须 密切 协作 产生 有 意义 的 

结果 ， 如 果 没 有 一 个 有 效 的 资源 管理 系统 ， 网 格 或 VO 可 能 没有 效率 ， 并 且 浪 费 资 源 。 a 
7.1.3 开放 网 格 服务 体系 结构 (OGSA) 

OGSA 是 学 术 界 和 开工 业界 在 全 球 网 格 论坛 (Global Grid Forum, GGF) 工作 组 的 协调 下 ， 
联合 制定 的 开源 网 格 服务 标准 。 本 标准 是 专 为 新 兴 网 格 和 云 服务 社区 制定 的 。OGSA 扩展 了 Web 
服务 的 概念 和 技术 。 该 标准 定义 了 一 个 标准 框架 ， 人 允许 商业 界 在 企业 与 商业 伙伴 上 构建 网 格 平 
台 。 其 目的 是 定义 开源 软件 和 商业 软件 所 要 求 的 标准 ， 以 支持 全 球 网 格 基础 设施 。 

7.1.3.1 OGSA 框架 

OGSA 建立 于 两 个 基本 软件 技术 : Globus Toolkit 广泛 作为 科学 技术 计算 的 网 格 技术 解决 方 
法 ，Web 服务 (WS 2.0) 为 商业 和 网 络 应 用 的 通用 基于 标准 的 框架 。OGSA 通过 标准 接口 和 公 
约 "" ， 支 持 有 状态 的 、 瞬 态 网 格 服务 的 创建 、 终 止 、 管 理 和 执行 。0GSA 框架 为 各 种 网 格 服务 和 
API 访问 工具 指定 了 物理 环境 、 安 全 、 基 础 设施 轮廓 、 资 源 供 应 、 虚 拟 域 和 执行 环境 。 

图 7-1 比较 了 网 格 分 层 结构 ，OGSA 是 面向 服务 的 。 服 务 作为 一 个 实体 ， 通 过 交换 信息 为 它 
的 客户 端 提供 一 些 能 力 。 我 们 认为 在 网 格 服务 的 发 现 与 管理 中 ， 其 需要 更 大 的 灵活 性 。 第 5 章 展 
示 的 SOA (面向 服务 体系 结构 ) 是 网 格 计算 服务 的 基础 。 在 该 服务 标准 中 ， 资 源 的 单个 与 集体 
状态 被 指定 。 该 标准 同时 指定 了 用 于 网 格 的 特定 SOA 内 服务 之 间 的 相互 作用 。 重 要 的 是 ， 该 体 
系 结构 不 是 分 层 的 ， 某 个 服务 的 实现 被 建立 在 逻辑 上 所 依赖 的 模块 上 。 可 以 把 这 个 框架 归 类 为 
面向 对 象 的 。 许 多 Web 服务 标准 、 语 义 和 扩 展 在 OGSA 中 被 应 用 或 修改 。 

7.1.3.2 OGSA 接口 

OGSA 的 核心 是 网 格 服务 。 这 些 服务 需要 专用 明确 的 应 用 程序 接口 。 这 些 接口 提供 资源 发 
现 、 动 态 服 务 创建 、 生 命 周 期 管理 、 通 知 和 易 管 理性 。 相 关 约 定 必 须 解 决 命名 与 可 升级 性 问题 。 
表 7-3 总 结 了 OGSA 工作 小 组 提出 的 接口 。0GSA 虽然 定义 了 各 种 行为 及 相关 接口 ， 但 是 只 能 选 
择 这 些 接口 〈 网 格 服务 ) 之 一 。 网 格 服务 的 两 个 关键 特性 是 瞬时 的 和 有 状态 的 。 这 些 特性 对 于 

422 ] 网 格 服务 如 何 命名 、 发 现 与 管理 具有 重要 意义 。 瞬 时 意味 着 服务 可 以 被 动态 地 创建 和 销毁 ; ARK 
态 指 的 是 每 个 服务 实例 之 间 可 以 相互 区 别 。 
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表 7-3 OGSA 工作 组 开发 的 OGSA 网 格 服务 接口 


端口 类 型 简要 说明 








查询 网 格 服务 实例 ， 包 括 句柄 、 引 用 、 主 键 、 句 柄 映射 、 接 口 信息 和 
特定 服务 信息 。 对 多 种 查询 语言 的 可 扩展 支持 

风格 服务 为 网 格 服务 实例 设 定 〈 和 获取 ) 终止 时 间 

销毁 终止 网 格 服务 实例 
通知 源 订阅 通知 主题 订阅 服务 事件 通知 。 允 许 通过 第 三 方 消息 传递 服务 发 布 
通知 池 发 布 通知 实现 异步 通知 消息 发 布 
注册 注册 服务 管理 网 格 服务 句柄 《GSH》 的 软 状态 注册 

注销 服务 注销 CSH 
工厂 创建 服务 创建 新 的 网 格 服务 实例 
句柄 映射 通过 句柄 查找 返回 与 GSH 相关 的 网 格 服务 引用 (GSR) 





7.1.3.3 网 格 服务 处 理 

GSH 是 区 别 于 其 他 专用 网 格 服务 实例 的 全 局 唯一 名 称 。 网 格 服务 实例 的 状态 可 以 存在 于 现 
在 或 者 未 来 。 这 些 实例 不 携带 任何 协议 、 实 例 指定 的 地 址 或 支持 协议 绑 定 。 取 而 代 之 的 是 ， 这 些 
信息 条 款 与 所 有 其 他 实例 指定 的 信息 一 起 被 封装 。 为 了 介绍 特定 服务 实例 ， 其 单一 抽象 被 定义 
为 GSR。 

与 不 随时 间 改 变 的 GSH 不 同 ， 实 例 的 CSR 在 服务 的 整个 生命 周期 内 均 可 以 发 生 改 变 。OGSA 
引入 “处 理 分 辨 ”机 制 ， 用 来 映射 GSH 到 GSR, GSH 必须 在 全 局 范围 内 定义 一 个 特定 实例 。 然 
而 ，GSH 不 可 能 总 是 指向 相同 网 络 地 址 。 服 务实 例 只 要 遵守 相关 语义 ， 可 以 按照 自己 的 方法 执 
行 。 例 如 ， 服 务实 例 实施 的 端口 类 型 决定 了 其 执行 的 操作 ， 如 表 7-3 所 示 。 

7.1.3.4 网 格 服务 迁移 

这 是 在 服务 的 生命 周期 创建 新 服务 和 指定 断言 的 机 制 。 OGSA 模型 定义 了 标准 接口 〈 称 为 
factor) ， 以 实施 这 一 引用 。 创 建 的 任何 服务 必须 指定 之 前 的 服务 作为 后 续 服 务 的 引用 。facter 接 
口 在 表 7-3 中 被 标记 为 创建 服务 操作 。 其 创建 了 指定 接口 的 请 求 网 格 服务 ， 并 为 新 服务 实例 返回 
GSH 和 初始 的 GSR。 还 应 该 使 用 处 理 分 辨 服务 注册 这 个 新 服务 实例 。 每 个 动态 创建 的 网 格 服务 
实例 与 指定 的 生命 周期 相关 。 423 

例 7.3 使 用 GSH 和 GSR 的 网 格 服务 迁移 

图 7-3 展示 了 一 个 执行 中 的 服务 实例 如 何 由 一 个 位 置 迁 移 到 另 一 个 位 置 。 在 时 间 了 ， 服 务实 


处 理 服务 器 处 理 服务 器 


处 理 
(GSH) (GSH) 


L mm | 


图 7-3 在 了 时 刻 迁 移 服务 实例 之 前 〈 如 左 图 所 示 ) 与 之 后 (如 右 图 所 示 ) CSH 解析 为 不 同 的 GSR 
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例 在 迁移 之 前 (在 左边 ) 或 之 后 (在 右边 )， 一 个 GSH 对 应 不 同 的 GSR, HB (handle 
resolver) 在 迁移 之 前 或 之 后 简单 地 返回 不 同 的 GSR。 由 于 客户 端 或 另 一 个 基于 客户 端 利益 的 网 
格 服务 的 明确 请 求 ， 其 最 初 的 生命 周期 可 以 延长 一 个 特定 的 生命 周期 。 

如 果 在 时 间 周 期 耗 尽 之 前 ， 没 有 接收 到 用 户 的 再 次 请 求 ， 该 服务 实例 自行 终止 并 释 放 相 关 
资源 。 生 命 周 期 管理 允许 鲁 棒 的 终端 和 失效 检测 。 这 由 明确 定义 服务 实例 的 生命 周期 语义 来 实 
现 。 同 样 ， 主 机 环境 保障 在 一 些 系统 失效 的 情形 下 ， 可 以 保证 使 用 有 限 资 源 。 如 果 一 个 服务 到 达 
终止 时 间 ， 其 主机 环境 能 够 回收 所 有 已 分 配 的 资源 。 E 

7.1.3.5 OGSA 安全 模型 

OGSA 支持 各 级 安全 措施 ， 如 图 7-4 所 示 。 网 格 工作 在 异 构 分 布 式 环境 中 ， 其 本 质 上 对 公众 
开放 。 通 过 执行 安全 会 话 、 单 一 登录 、 访 问 控制 及 认证 审核 ， 我 们 必须 能 够 检测 人 侵 或 阻止 病毒 
传播 。 在 安全 策略 和 用 户 级 别 ， 我 们 采用 申请 服务 或 端点 策略 、 资 源 映射 规则 、 重 要 资源 的 授权 . 
访问 和 隐私 保护 。 在 公 钥 基础 设施 (Public Key Infrastructure, PKI) 服务 级 别 ，0GSA 需要 安全 
协议 栈 的 绑 定 和 采用 多 种 信任 中 介 的 认证 授权 机 构 (Certificate Authority, CA) 的 链接 。 网 格 平 
一 般 会 实现 信任 模型 与 安全 登录 。 


人 侵 检测 : 凭证 与 识别 翻译 aoe a ， 
防 病毒 管理 








策略 管理 服务 /端点 策略 映射 规则 授 机 策略 隐私 策略 | 
(认证 、 隐 私 、 
联盟 等 ) 
- fa || & 
策略 表示 与 交换 fe || 全 
roo 模 || & 
用 户 管理 型 || 录 

















绑 定安 全 ( 传输 、 协 议 、 消 息 安全 ) 


图 7-4 不 同 保护 级 别 之 上 的 OGSA 安全 模型 实现 
注 : 由 I Foster FAH, http://www. ogf. org/documents/GFD. 80. pdf, 


7.1.4 数据 密集 型 网 格 服务 模型 

网 格 的 应 用 通常 分 为 两 大 类 : 计算 密集 型 和 数据 密集 型 。 数 据 密集 型 应 用 中 ， 我 们 可 能 需要 
处 理 大 量 的 数据 。 例 如 ， 每 年 由 大 规模 强 子 碰撞 机 产生 的 数据 可 能 超过 几 PB (10*B) 。 网 格 系 
统 必须 经 特别 设计 ， 才 能 发 现 、 传 输 和 操作 如 此 庞大 的 数据 集 。 大 规模 数据 集 的 传输 是 一 个 耗 时 
的 任务 。 有 效 的 数据 管理 要 求 低 成 本 存储 与 高 速 数据 转移 。 接 下 来 的 段落 介绍 了 解决 数据 转移 
问题 的 几 种 常用 方法 。 

7.1.4.1 数据 复制 和 统一 命名 空间 

这 种 数据 访问 方法 也 被 称 为 缓存 ， 常 用 于 提高 网 格 环境 中 的 数据 效率 。 通 过 复制 相同 的 数 
据 块 和 分 发 它们 至 网 格 的 多 个 区 域 ， 用 户 可 以 根据 引用 的 局 部 性 访问 相同 的 数据 。 此 外 ， 相 同 数 
据 集 的 副本 可 以 相互 作为 备份 。 一 些 关键 数据 不 会 在 失效 时 丢失 。 然 而 ， 数 据 副 本 可 能 需要 定期 
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检查 一 致 性 ， 产 生 的 存储 需求 和 网 络 带宽 的 增长 可 能 引起 额外 的 问题 。 

副本 策略 决定 什么 时 候 和 在 什么 地 方 创建 数据 的 一 个 副本 。 需 要 考虑 的 因素 包括 数据 需求 、 
网 络 条 件 和 传输 成 本 。 副 本 策略 方法 可 以 分 为 : 动态 与 静态 。 关 于 静态 方法 ， 副 本 的 位 置 和 数量 
提前 确定 ， 并 且 不 会 被 修改 。 虽 然 复 制 操作 只 需要 很 少 的 开销 ， 但 是 静态 策略 不 能 适应 需求 、 带 
宽 和 存储 可 用 性 的 变化 。 动 态 策略 可 以 根据 条 件 〈 例 如 ， 用 户 行为 ) 的 改变 ， 调 整数 据 副本 的 
位 置 和 数量 。 

然而 ， 频 繁 的 数据 移动 操作 会 导致 比 静态 策略 多 很 多 的 开销 。 在 不 改变 数据 备份 状态 的 前 
提 下 ， 必 须 优化 副本 策略 。 关 于 静态 副本 ， 其 优化 需要 确定 数据 副本 的 位 置 及 数量 。 关 于 动态 副 
本 ， 优 化 可 以 基于 数据 备份 是 否 应 该 被 创建 、 删 除 或 移动 。 最 常见 的 副本 策略 有 局 部 保留 ， 最 小 
化 更 新 成 本 和 最 大 化 收益 。 

7.1.4.2 网 格 数 据 访 问 模型 

多 位 参与 者 可 能 想 要 共享 相同 数据 集合 。 为 了 获得 任意 数据 块 ， 我 们 需要 网 格 具有 单一 全 
局 命名 空间 。 同 样 ， 我 们 希望 拥有 唯一 文件 名 。 为 了 实现 这 些 ， 我 们 必须 解决 具有 相同 命名 的 多 
个 数据 对 象 之 间 的 不 一 致 性 。 由 此 可 以 引信 访问 限制 ， 以 避免 混乱 。 同 时 ， 数 据 需 要 被 保护 ， 以 
避免 泄露 与 损坏 。 试 图 访问 数据 的 用 户 必须 先 经 过 认证 ， 然 后 被 授权 访问 。 图 7-5 列 出 了 组 成 数 
据 网 格 的 4 种 访问 模型 。 






ERAD ERD CARD 


b) 层次 模型 


c) 联合 模型 d) 混合 模型 
图 7-5 构建 数据 网 格 的 4 种 体系 结构 模型 


单元 模型 : 这 是 一 个 集中 式 数据 仓库 模型 ， 如 图 7-5a 所 示 。 所 有 数据 保存 在 一 个 中 心 数据 
仓库 中 。 当 用 户 想 访问 一 些 数据 时 ， 他 们 必须 直接 向 中 心 仓 库 提 交 请 求 。 没 有 用 于 保护 数据 局 部 
性 的 数据 副本 。 该 模型 实现 小 型 网 格 是 最 简单 的 。 对 于 一 个 大 型 网 格 ， 在 性 能 与 可 靠 性 方面 ， 该 
模型 是 没有 效率 的 。 在 该 模型 中 ， 只 在 容错 时 才 需 要 数据 副本 。 

层次 模型 : 层次 模型 (如 图 7-5b 所 示 ) 适用 于 构建 只 有 一 个 数据 访问 目录 的 大 型 数据 网 格 。 
数据 可 以 从 来 源 被 转移 到 二 级 区 域 中 心 。 然 后 区 域 中 心 的 一 些 数据 被 转移 至 兰 级 中 心 。 经 过 几 
次 转发 ， 特 定数 据 对 象 可 被 用 户 直 接 访问 。 一 般 来 说 ， 数 据 中 心 级 别 越 高 ， 其 覆盖 范围 越 广 。 它 
比 低级 数据 中 心 具 有 更 高 的 访问 带宽 。 在 层次 数据 访问 模型 中 ，PKI 安全 服务 更 容易 实现 。 欧 洲 
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数据 网 格 (EDG) 采用 了 这 种 数据 访问 模型 ， 将 在 7. 2.3 节 介 绍 。 

联合 模型 : 如 图 7-5c 所 示 ， 该 数据 访问 模型 较 适用 于 设计 有 多 个 数据 供应 来 源 的 数据 网 格 。 
该 网 格 有 时 也 被 称 为 网 状 模型 。 数 据 来 源 分 布 在 多 个 不 同 的 地 点 。 尽 管 数据 是 共享 的 ， 其 数据 项 
仍 由 原来 的 主人 拥有 和 控制 。 根 据 预定 义 访 问 策略 ， 只 有 被 授权 的 用 户 可 以 向 任意 数据 来 源 请 
求 数据 。 在 网 格 机 构 的 数量 变 得 很 多 时 ， 网 状 模型 的 花费 可 能 是 最 多 的 。 

混合 模型 : 该 数据 模型 如 图 7-5d 所 示 。 该 模型 结合 了 层次 模型 与 网 状 模型 的 最 优 特征 。 传 
统 数据 传输 技术 ， 如 FTP， 为 网 络 提供 较 低 的 带宽 。 数 据 网 格 中 的 网 络 链接 通常 上 共有 相当 高 的 带 
宽 ， 并 且 其 他 数据 传输 模型 是 利用 高 速 数据 传输 工具 (如 使 用 Globus 库 开发 的 GridFTP) 开发 
的 。 混 合 模型 的 成 本 介 于 层次 和 网 状 这 两 种 极端 模型 之 间 。 

7. 1.4.3 并 行 与 条 纹 数据 传输 

与 传统 的 FIP 数据 传输 相 比 ， 并 行 数据 传输 打开 多 个 数据 流 ， 用 于 同时 传输 一 个 文件 的 细 
分 段 。 虽 然 每 个 流 的 速度 与 串 行 流 一 样 ， 但 是 数据 移动 的 整体 时 间 相 对 于 FTP 传输 显著 减少 。 
在 条 纹 数据 传输 中 ， 一 个 数据 对 象 被 分 割 成 多 个 部 分 ， 且 每 个 部 分 被 放置 于 数据 网 格 的 独立 站 
点 。 当 用 户 请 求 该 片 数 据 时 ， 每 个 站 点 都 会 创建 一 个 数据 流 ， 并 且 数 据 对 象 的 所 有 部 分 将 同时 传 
输 。 条 纹 数据 传输 可 以 更 有 效 地 利用 多 个 站 点 的 带宽 ， 加 快 了 数据 传输 。 


7.2 网 格 项 目 和 网 格 系 统 创建 


当今 用 户 希 望 在 分 布 式 和 自治 环境 中 有 效 地 彼此 共享 和 合作 ， 网 格 计算 为 此 提供 了 有 前 途 
的 解决 方案 。 除 了 志愿 者 网 格 ， 大 多 数 大 规模 网 格 是 由 公共 机 构 资 助 的 国家 或 者 国际 项 目 。 本 节 
回顾 了 近 几 年 发 展 的 主要 网 格 系统 。 特 别 地 ， 我 们 撒 述 了 三 个 已 经 部 署 在 美国 、 欧 盟 和 中 国 的 国 
家 网 格 项 目 。 
7.2.1 国家 网 格 和 国际 项 目 

与 超级 计算 机 相同 ， 国 家 网 格 主要 通过 使 用 政府 资源 建立 。 这 些 国家 网 格 的 发 展 推动 了 网 
格 应 用 中 的 研究 发 现 、 中 间 件 产品 和 效用 计算 。 

7.2.1.1 国家 网 格 项 目 

在 过 去 10 年 中 , 很 多 数据 网 格 、 信 息 网 格 或 计算 网 格 在 世界 各 地 被 构建 。 表 7-4 总 结 了 5 
个 具有 代表 性 的 网 格 计算 系统 ， 分 别 部 署 在 美国 、 欧 盟 、 英 国 、 法 国 和 中 国 。 我 们 之 所 以 称 其 为 
国家 网 格 ， 是 因为 这 些 网 格 基 本 上 是 政府 资助 的 项 目 ， 推 进 需 要 高 性 能 计算 和 高 带宽 通信 网 络 
的 极 具 挑战 的 应 用 发 展 。 这 里 把 欧盟 的 国家 视 为 一 个 整体 。 多 数 国家 网 格 由 互联 网 主干 和 高 带 
宽 WAN 或 LAN 链接 超级 计算 机 中 心 和 主要 计算 机 集合 组 成 。 这 些 网 格 在 表 7-4 中 简要 介绍 ， 更 
多 的 细节 将 在 后 续 章 节 中 介绍 。 


表 7-4 5 个 国家 中 的 部 分 国家 网 格 项 目 








SR, Rawat ia 分 布 式 计算 能 力 与 应 用 


开放 网 格 基础 设施 ， 共 11 个 资源 站 点 ， 具 有 40 Gbps 的 互联 网 
主干 链接 ， 超 过 2 Pflops 的 计算 能 力 ，50 PB 的 在 线 存 储 ， 以 及 100 
个 特定 数据 库 


在 高 能 物理 、 环 境 与 生物 信息 学 等 领域 用 于 进行 数据 分 析 的 最 
大 规模 的 网 格 


由 法 国内 9 个 站 点 的 5 000 个 处 理 器 核 组 成 的 实验 网 格 平台 ， 用 
于 高 性 能 计算 和 研究 (7.2.2 节 ) 


用 于 研究 的 教育 计算 网 格 ， 链接 了 100 所 中 国 大 学 的 高 性 能 系统 
在 大 规模 的 Sun 和 SGI 工作 站 之 上 运行 遗传 算法 








TeraGrid (美国 ) NSF, 2002 (7.2.2 节 ) 










WHA CREN, 2001 (7.2.3 
+) 


法 国政 府 ，2006 (7.2.1 
节 ) 


教育 部 ，2005 (7.2.4 47) 


NASA Ames 实验 室 ，2008 


DataGrid 《欧盟 ) 











Grid’5000 (法 国 ) 
















ChinaGrid (FE) 
NAS Grid (美国 ) 
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7.2.1.2 国际 网 格 项 目 

网 格 应 用 不 应 该 局 限于 地 理 位 置 。 如 同 表 7-5 中 的 总 结 ， 当 今 一 些 大 规模 全 球 规 模 网 格 项 目 
开始 启动 或 仍然 活跃 。 这 些 项 目 促 进 了 志愿 者 计算 、 效 用 计算 和 利用 网 格 基础 设施 的 特定 软件 
应 用 的 发 展 。 国 际 网 格 包括 政府 和 工业 界 的 资助 。 欧 盟 在 网 格 计算 中 扮演 着 主要 角色 。 最 著名 的 
欧盟 网 格 项 目 是 EGEE DataGrid 和 BEincrid。 在 工业 界 ， 网 格 提 供 商 有 Sun Microsystems, IBM, 
HP 等 。 国 际 网 格 由 定期 项 目 建 造 ， 资 助 到 期 后 ， 这 些 网 格 中 的 一 部 分 将 不 再 提供 公共 服务 。 


表 7-5 国际 网 格 项 目 ( 过 去 和 当前 ) 




















项 目 描述 和 操作 范围 状 态 
poke TET 
D4Science 应 用 于 科学 的 网 格 允 许 技术 ， 部 署 在 欧洲 、 亚 洲 和 太平 洋 2008 一 2009 
Nordic D-Grid Nordic 数据 网 格 设施 分 布 于 斯 堪 的 那 维 亚 半岛 和 芬兰 2006 一 2010 
Future Grid 美国 的 高 性 能 与 网 格 研究 组 织 2010 至 今 
WorldGrid 世界 社区 网 格 ， 在 2011 年 共有 620 万 台 运 行 BOINC 的 机 器 2004 至 今 
SETI@ Home 志愿 者 网 格 ， 在 2001 年 共有 运行 放射 信号 的 2.5 台 机 器 2001 至 今 
BONC wt 利 志 BamM is ， 包 括 PrimeGrid, DNETC2Home, MilkyWay @ 2002 B4 
BEinGRID 由 欧洲 委员 会 提供 资金 支持 的 网 格 商业 实验 2006 一 2009 


例 7.4 允许 E-sciencE ay EGEE 网 格 

EGEE 网 格 基础 设施 和 项 目 由 欧盟 在 2004 年 至 2006 年 分 三 个 阶段 资助 。EGEE 是 允许 网 格 
用 于 了 -sciencE (Enabling Grids for E-sciencE) 的 简称 。 该 项 目 己 不 再 活跃 ， 然 而 ， 该 分 布 式 计算 
基础 设施 由 DataGrid (2002 一 2004) 项 目 建 立 与 维护 ， 目 前 EGEE-I, ECEE-II 和 ECEE-III 
(2004—2010) 由 欧洲 网 格 基 础 设施 支持 。 该 长 期 组 织 成 为 国家 网 格 的 开始 。EGEE 基础 设施 到 
EGI 的 过 渡 是 确保 富有 活力 和 持续 的 欧洲 研究 社区 过 程 中 的 一 部 分 。 

EGEE 网 格 基 础 设施 包括 部 署 在 全 球 范 围 内 计算 集 与 存储 资源 的 中 间 件 及 其 提供 的 服务 集 
合 。 为 了 产品 化 服务 ， 大 规模 多 科学 网 格 基础 设施 在 全 球 包括 250 个 资源 中 心 ， 提 供 约 40 000 
个 CPU 和 若干 PB 的 存储 。 该 基础 设施 每 天 被 200 个 虚拟 组 织 中 的 数 千 位 科学 家 使 用 。 这 是 一 个 
稳定 的 、 支 持 良好 的 基础 设施 ， 运 行 gLite 中 间 件 的 最 新 发 布 版 本 。EGEE 也 有 预 生 产 服 务 ， 提 
供 网 格 服务 的 入 口 ， 用 来 测试 和 评估 中 间 件 的 特点 。 

此 外 ， 预 生产 扩展 了 中 间 件 认证 体系 、 程 序 部 署 评 估 、 互 操作 性 和 基本 软件 功能 。 此 外 ， 还 
有 一 个 EGEE 网 络 运营 中 心 (EGEE Network Operations Center，ENOC) ， 为 EGEE 和 其 他 网 络 供 
应 商 ( 如 GEANT2 和 NREN) 之 间 的 网 络 操作 协作 提供 其 所 需 。 从 长 远 来 看 ，EGEE 和 EGI 项 目 
的 主要 目标 是 促进 学 术 和 工业 占用 之 间 科 学 研究 的 全 球 合作 。EGEE 应 用 挑战 包括 : 健康 和 医 
药 ， 基 因 学 和 生物 科学 ， 粒 子 物 理学 和 天 文学 ， 环 境 科 学 ， 工 程 设 计 ， 化 学 和 材料 科学 ， 以 及 社 
会 科学 。 感 兴趣 的 读者 可 以 参考 网 站 : http://www. eu-egee. org, a 

例 7.5 建立 于 9 个 法 国 城市 的 Grid'5000 

Grid’5000 是 一 个 实验 性 网 格 测试 平台 ， 提 供 大 规模 计算 和 研究 工具 。 作 为 国家 基础 设施 ， 
Grid’5000 连接 分 布 法 国 9 个 站 点 的 4792 个 处 理 器 核 。 图 7-6 显示 了 处 理 器 核 的 分 布 情况 。 
Grid’5000 是 一 个 受 限 的 系统 。 PKI 和 X. 509 认证 用 来 增强 Grid'5000 的 安全 。 该 系统 使 用 专用 私 
人 网 络 来 构建 值得 信赖 的 主干 网 络 。 

Grid’5000 站 点 通过 高 带宽 网 络 链接 。 每 个 用 户 拥有 一 个 普通 的 账号 。 每 个 站 点 管理 其 本 地 
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用 户 账号 ， 并 且 每 个 站 点 运行 轻 量 级 目录 访问 协议 (Lightweight Directory Access Protocol, LDAP) 
服务 器 ， 为 所 有 用 户 维护 相同 目录 。 本 地 节点 的 用 户 账 号 具有 读 / 写 共享 文件 的 更 高 优先 级 。 远 
程 节点 的 用 户 账号 只 允许 读本 地 文件 。 树 结构 中 的 远程 节点 账号 信息 定期 同步 。 从 用 户 的 角度 
来 看 ， 一 个 全 局 可 用 的 账号 被 安装 在 整个 网 格 系统 上 的 。 a 


BK: 618 > 
Orsa: 


a 






Toulouse 
Bi: 436 








@ Grid'5000 站 点 
— 10 gnps link 


图 7-6 Grid5000 位 于 法 国 9 个 资源 站 点 的 概况 
注 ; 摘自 https://www. grid5000. fr/mediawiki/index. php/Grid5000; Home, 








7.2.2 美国 的 NSF TeraGrid 


TeraGrid 是 结合 了 11 个 联合 站 点 领导 阶级 资源 的 开放 科学 发 现 基 础 设施 ， 用 以 在 美国 创建 
集成 的 、 持 续 的 计算 资源 。 在 使 用 高 性 能 网 络 连接 时 ，TeraGrid 聚集 了 美国 的 高 性 能 计算 机 、 数 
据 资源 和 工具 ， 以 及 高 端 实验 设备 。 在 写作 本 书 时 ，TeraGrid 资源 具有 2Pflops 以 上 的 计算 能 力 和 
超过 50PB 的 在 线 与 档案 数据 存储 ， 并 在 高 性 能 网 络 中 实现 快速 访问 与 检索 。 研 究 者 也 可 以 访问 
100 个 以 上 专用 数据 库 。 

TeraGrid 通过 在 芝加哥 大 学 的 网 格 基础 设施 组 (Grid Infrastructure Group, GIG) 协调 , 511 

个 资源 提供 站 点 协作 运行 : 印第安 纳 大 学 、 路 易 斯 安 那州 光 网 络 实验 室 、UIUC 的 超级 计算 应 用 
国家 中 心 (NCSA) 、 计 算 科 学 国家 实验 室 、 橡 树 岭 国家 实验 室 (ORNL) 、 匹 兹 堡 超级 计算 中 心 
(PSC) 、 普 度 大 学 、 圣 地 亚 哥 超级 计算 机 中 心 (SDSC) 、 得 克 萨 斯 州 高 级 计算 中 心 (TACC) 、 世 
加 哥 大 学 / 阿 贡 国 家 实验 室 (ANL) 及 国家 大 气 研究 中 心 (NCAR), 

当 2001 年 开始 这 个 项 目 时 ，TeraGrid 只 有 ANL、SDSC、UCSA 和 Caltech 4 个 资源 站 点 。 
2003 年 ，NSF 为 TeraGrid 增加 了 4 个 站 点 ， 并 在 亚特兰大 建立 了 第 三 个 网 络 枢纽 。 这 些 新 站 点 分 
别 部 署 在 ORNL、 普 度 大 学 、 印 第 安 纳 大 学 和 TACC。TeraGrid 的 构建 也 可 能 通过 与 Sun 
Microsystems, IBM, Intel 公司 、Qwest 通信 、jJuniper、Myricom、HP 公司 与 Oracle 公司 这 些 合 
伙伴 的 重要 协作 实现 。 在 书写 这 些 内 容 时 ，TeraGrid 设备 进入 批量 生产 时 期 。 下 一 代 千 万 亿 次 资 
源 ， 称 为 XD，2011 年 至 2016 年 可 能 被 添加 到 一 个 或 两 个 美国 国家 网 格 设备 上 。 

TeraGrid 是 一 种 高 性 能 计算 和 通信 (High-Performance Computing and Communication, HPCC) 
系统 ， 采 用 Globus 软件 /硬件 工具 推进 网 格 连接 多 个 万 亿 次 计算 机 。 在 写 这 些 内 容 时 ， 用 于 构建 
TeraGrid 的 互联 网 主干 网 络 包括 Chps 链接 (4 个 千 兆 以 太 网 捆绑 在 一 起 ) 。 图 7-7 显示 了 TeraGrid 
的 5 个 资源 站 点 和 它们 的 主干 网 络 。 每 个 网 格 的 主要 资源 类 型 是 明确 的 。 其 中 芝加哥 和 洛杉矶 的 
两 个 区 域 门户 枢纽 通过 40GB/s 的 扩展 底板 网 络 连接 。 
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ANL: 可 视 化 
e 1.25 TF intel-64 集群 
e 20TB AA 

e 06 虚拟 化 节点 


CALTECH: 数据 收集 分 析 
e 0.4 TF intel IA-64 集群 
e 80TB MA. 

e IA-32 datawulf 集群 























NCSA: 计算 密集 
e 10 TF intel IA-64 集群 (128 大 
内 存 节 点 ) 


PSC: 异 构 性 
e 6.3 TF compaq EV7 集群 
e 221 TB 网 盘 









SDSC: 数据 密集 
ə 4TF intel IA-64 集群 
e TF IBM power4 集群 
e 500 TB 网 盘 

o Sun 磁盘 服务 器 










图 7-7 TeraGrid 的 5 个 主要 资源 站 点 ，LA 与 芝加哥 中 心 由 40GB/s 的 底板 网 络 连接 


注 : 44 8 https://www. teragrid. org/web。 


TeraGrid 资源 通过 SOA 整合 ， 每 个 资源 提供 具体 接口 和 操作 支持 方面 的 服务 。 计 算 资源 运行 
一 个 称 为 协作 TeraGrid 软件 服务 (Coordinated TeraGrid Software and Services, CTSS) 的 软件 包 集 
Ao CTSS 在 所 有 TeraGrid 系统 上 提供 了 相似 的 用 户 环境 ， 使 得 科学 家 能 够 将 一 个 系统 中 的 代码 
移植 到 另 一 个 系统 中 。CTSS 也 提供 了 类 似 单 点 登录 、 远 程 作 业 提 交 、 工 作 流 支持 和 数据 移动 工 
具 这 些 整合 功能 。CTSS 包括 Globus Toolkit、Condor、 分 布 式 记 账 管理 软件 、 验 证 与 确认 软件 ， 以 
及 一 系列 的 编译 器 、 编 程 工具 和 环境 变量 。 

TeraGrid 资源 采用 专用 光学 网 络 互 连 ， 每 个 资源 提供 商 站 点 的 连接 速度 为 10GBvs 或 
30GB/s, TeraGrid 用 户 通过 国家 研究 网 络 (如 Internet2 Abilene 主干 和 National LambdaRail) ij 
问 设 备 。TeraGrid 用 户主 要 来 自 美国 大 学 。 美 国 研究 人 员 可 以 获得 探索 权 或 CPU 时 间 。 在 同 
僻 审 核 后 ， 更 广泛 的 分 配方 案 将 涉及 建议 提交 和 奖励 。 所 有 分 配 建议 均 通 过 TeraGrid 网 站 
(https://www. teragrid. org/web) 处 理 。 

7.2.3 欧盟 的 DataGrid 


殉 洲 数据 网 格 项 目 (European DataGrid Project, EDG) 由 欧盟 资助 。 该 网 格 目 标 是 建立 下 
一 代 、 高 吞吐 量 、 产 品级 网 格 基 础 设施 ， 以 支持 高 能 物理 学 、 地 球 观察 和 生物 信息 学 中 的 IO 
密集 型 实验 。 特 定 的 网 格 中 间 件 被 开发 用 于 管理 和 共享 拍 字 节 (Petabyte) 级 别 的 信息 卷 。 其 
目标 是 在 通用 命名 空间 保证 访问 海量 数据 的 安全 性 。 该 系统 允许 从 一 个 地 理 站 点 高 速 移动 和 
复制 数据 至 另 一 个 站 点 ， 并 在 全 局 范围 内 保持 多 个 副本 的 一 致 性 检查 和 同步 。 

7.2.3.1 EDG 体系 结构 

图 7-8 显示 了 由 CERN 发 布 的 基于 信息 的 EDG 整体 体系 结构 。DataGrid 项 目 具 有 多 层次 结 
构 。 以 拍 字 节 排 序 的 数据 将 以 层次 形式 分 布 于 全 球 多 个 站 点 。 例 如 ,0 层 是 位 于 日 内 瓦 的 
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CERN 计算 机 中 心 ( 欧 洲 核 研究 组 织 ) ， 该 层 存储 了 几乎 所 有 的 相关 数据 。1 层 的 几 个 区 域 中 
心 分 别 位 于 意大利 、 法 国 、 英 国 和 美国 ， 这 些 区 域 中 存储 较 少 的 数据 。EDG 使 用 基于 扩展 模 
式 的 资源 模型 ， 并 采用 层次 命名 空间 来 处 理 所 有 分 布 式 与 副本 数据 项 的 创建 和 访问 。 


100MB/s 


oÈ C CERN 计算 机 中 心 





2.4GB/s 






.6 ~ 2.4GB/s 


ai LES 物理 数据 缓存 


100 ~ 1000MB/s 





7-8 欧盟 数据 网 格 (EDG) 的 分 层 数据 分 布 

7%; 摘自 http://eu-datagrid. web. cern. ch/eu-datagrid/ , 

每 个 1 层 中 心 进一步 与 大 量 2 层 数据 中 心 链 接 ， 这 些 2 层 数 据 中 心 将 进一步 以 分 层 的 方式 
链接 到 3 层 机 构 。 终 端 用 户 在 工作 站 访问 数据 网 格 。EDG 并 不 保证 QoS， 并 且 其 资源 信息 是 基 
于 LDAP 网 络 目录 的 。 资 源 分 发 是 分 批 的， 定期 被 传送 至 网 格 的 其 他 部 分 。EDG 中 的 资源 发 
现 是 分 散 的 ， 并 且 是 基于 查询 的 。 调 度 器 采用 具有 可 扩展 调度 策略 的 层次 结构 。 一 个 专用 工 
作 负 载 分 布设 备 平衡 从 数 百 个 物理 设备 提交 到 网 格 不 同人 口 的 作业 分 析 。 应 用 监测 及 用 户 访 
问 模式 收集 可 以 用 于 优化 全 局 访问 和 数据 分 布 。 

7.2.3.2 EDG 中 的 数据 分 布 

采用 的 核心 中 间 件 是 与 数据 网 格 相关 的 Globus Toolkit。 物 理 网 格 组 织 为 在 数 千 个 服务 器 节 
点 集群 上 管理 计算 中 心 、 提 供 网 格 服务 供应 所 有 必须 的 工具 。EDG 采用 欧洲 和 国家 研究 网 络 
基础 设施 ， 提 供 服务 器 与 资源 存储 之 间 的 虚拟 专用 网 络 (VPN). EDG 广 域 测试 台 与 现 有 基于 
2 | 核心 Globus 中 间 件 的 海量 存储 管理 系统 相连 接 。 网 格 监控 允许 终端 用 户 与 管理 员 在 EDG 环境 
433 | 中 检查 状态 和 错误 信息 。 

数据 访问 器 和 数据 定位 器 用 于 位 置 无 关 标 识 符 到 位 置 相关 标识 符 的 映射 。 数 据 访 问 器 是 

一 个 封装 了 本 地 文件 系统 细节 和 海量 存储 系统 (如 Castor 和 HPSS) 的 接口 。 该 通用 接口 有 几 

种 实现 方法 。 数 据 定位 器 采用 通用 元 数据 管理 器 ， 负 责 高 效 发 布 、 分 布 式 与 层次 式 对 象 集 的 

管理 。 查 询 优 化 确保 对 一 个 给 定 的 查询 ， 产 生 一 个 最 优 的 迁移 和 复制 计划 ， 该 计划 为 覆盖 连 

接 资源 、 组 织 界限 无 关 提 供 了 相应 的 安全 机 制 。 
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7.2.4 ChinaGrid 设计 经 验 

ChinaGrid 希望 在 中 国 的 100 所 大 学 建立 最 大 的 教育 和 研究 平台 。 该 系统 通过 聚集 中 国教 
育 科 研 网 (China Education and Research Network, CERNET) 的 现 有 分 散 资源 ， 用 于 研究 、 科 
学 和 教育 项 目 。2002 4F, ChinaGrid 由 中 国教 育 部 协同 中 国 100 所 重点 大 学 推出 ， 目 的 是 提供 
一 个 全 国 性 的 网 格 计算 平台 。 其 网 格 服务 旨 在 促进 合作 研究 、 科 学 和 教育 项 目 。ChinaGrid Æ 
于 网 格 技术 聚集 了 大 量 的 分 布 异 构 资 源 。 

7.2.4.1 ChinaGrid 连通 性 

作为 一 项 长 期 工程 ，ChinaGrid 的 第 一 阶段 从 2003 年 到 2006 年 ， 专 注 于 计算 网 格 (e-Science) 
上 的 各 式 平台 和 应 用 ， 并 覆盖 了 许多 中 国 重点 大 学 ,其 中 有 清华 大 学 、 华 中 科技 大 学 、 北 京 大 学 、 
北京 航空 航天 大 学 、 华 南 理工 大 学 、 上 海 交 通 大 学 、 东 南大 学 、 西 安 交通 大 学 、 国 防 科技 大 学 等 。 
连通 性 的 细节 可 以 参考 http://grid. hust. edu. cn/platform/ project/chinagrid /index, html, 

ChinaGrid 基于 CERNET 建立 和 部 署 ， 这 是 中 国 第 二 大 的 全 国 性 网 络 ， 履 盖 了 中 国 800 所 大 
学 、 学 院 和 机 构 。 高 带宽 (2. 5GB/s 的 主干 网 ) 和 丰富 的 科学 教育 资源 为 建立 ChinaGrid 提供 了 
构造 环境 。ChinaGrid 的 核心 是 它 的 网 格 中 间 件 ， 称 为 ChinaGrid 支持 平台 (ChinaGrid Supporting 
Platform，CGSP) 。CGSP 整合 教育 和 研究 环境 中 的 各 种 资源 ， 使 得 这 些 资 源 的 异 构 性 和 动态 性 对 
用 户 透 明 ， 为 科学 计算 和 工程 研究 提供 了 高 性 能 、 高 可 靠 、 安 全 、 快 捷 和 透明 的 网 格 服务 。 

7.2.4.2 ChinaGrid 的 应 用 

CGSP 为 ChinaGrid 提供 了 服务 门户 ， 是 一 个 核心 网 格 服务 集合 ， 包 括 执 行 管理 、 数 据 服务 、 
信息 服务 、 监 控 服 务 ， 以 及 部 署 各 种 网 格 应 用 的 设备 。 基 于 CGSP，5 个 特定 应 用 网 格 被 部 署 ; 
生物 信息 学 网 格 、 计 算 流 体 动力 学 网 格 、 海 量 信息 处 理 网 格 、 在 线 提供 高 等 教育 课程 的 远程 教育 
网 格 以 及 图 像 处 理 网 格 。 在 写 这 些 内 容 时 ，ChinaGrid 项 目的 总 体 计 算 能 力 已 达到 170teraflops , 
总 体 存储 容量 已 达到 170TB, ChinaGrid 项 目 支持 各 种 应 用 ,包括 天 气 预 报 、 石 油 储 集 模拟 、 高 
能 物理 、 数 值 风 洞 模拟 、 船 舶 结构 分 析 和 交通 控制 与 导航 。 


7.3 网 格 资源 管理 和 资源 中 介 


在 本 节 中 ,我 们 将 讨论 网 格 资源 管理 中 间 件 ,包括 调度 、 监 控 和 记 账 。 我 们 将 提出 两 种 网 格 
资源 管理 技术 一 一 Globus Toolkit 与 ChinaGrid 支持 平台 。 网 格 资源 中 介 和 调度 是 网 格 资源 管理 的 
两 个 核心 功能 。 我 们 还 将 涉及 网 格 操作 流程 ， 并 介绍 Gridbus 资源 中 介 作 为 一 个 中 介 的 示例 。 
7.3.1 资源 管理 和 作业 调度 

在 网 格 系统 中 ， 资 源 通常 是 自主 的 。 每 个 组 织 可 能 有 自己 的 资源 管理 策略 。 为 每 个 组 织 设立 
单独 的 资源 管理 系统 (Resource Management System, RMS) 是 较为 合理 与 适用 的 ， 上 层 的 RMS 
看 成 是 资源 消费 者 ， 下 层 的 RMS 看 成 是 资源 提供 商 。 为 了 支持 多 RMS 结构 ， 引 入 了 RMS 抽象 
模型 。 图 7-9 显示 了 该 模型 的 结构 。 该 模型 有 4 个 对 外 的 接口 。 资 源 消费 者 接口 用 于 访问 上 层 
RMS 或 用 户 应 用 程序 。 资 源 发 现 器 通过 该 接口 主动 搜索 符合 的 资源 。 资 源 传 播 器 广播 本 地 资源 
信息 至 其 他 RMS。 资 源 交 易 器 在 基于 市 场 的 网 格 系统 中 的 RMS 间 交 换 资源 。 资 源 解析 器 路 由 作 
业 至 远程 的 RMS。 资 源 协 同 分 频 器 为 一 个 作业 同时 分 配 多 个 资源 。 

7.3.1.1 RMS 的 层次 性 

这 些 RMS 彼此 相互 联系 ， 并 被 放置 在 层次 结构 中 。 资 源 提 供 商 接口 管理 底层 RMS 或 实际 资 
Wo EE RMS 的 资源 和 作业 通过 该 接口 被 管理 与 控制 。 如 果 被 允许 ， 资 源 预定 代理 也 可 以 在 这 
里 实现 。 资 源 管理 器 同 信 接口 用 于 相同 层次 RMS 之 间 的 交互 操作 。 作 业 请 求 经 由 该 接口 被 接收 ， 
并 被 传送 至 本 地 调度 器 。 
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资源 消费 者 接口 
服务 质量 中 介 


调度 器 与 状态 估 测 器 



















资源 发 现 器 
[> 
资源 解析 器 
lS 
资源 协同 分 频 器 


A 
安全 代理 

d 
其 他 代理 






资源 提供 商 接口 


图 7-9 Globus 所 支持 的 网 格 资源 管理 系统 (RMS) 的 主要 组 件 
435 32, W L Foster! 7] 提供。 

7.3.1.2 网 格 作业 调度 方法 

网 格 是 一 种 新 型 的 分 布 式 计 算 技 术 ， 但 网 格 中 的 调度 技术 并 不 是 一 个 全 新 的 研究 课题 。 传 
统 的 分 布 式 系统 (例如 ， RH) 与 网 格 在 调度 上 有 类 似 的 问题 。 这 些 问 题 已 被 探索 达 数 十 年 之 
久 。 关 于 传统 分 布 式 系统 中 的 调度 技术 已 开展 了 许多 研究 。 通 常 使 用 两 种 模式 来 归 类 这 些 技术 : 
层次 分 类 ， 采 用 多 级 树 归 类 调度 方法 ( 见 图 7-10); 平坦 分 类 ， 基 于 单个 属性 。 这 包括 基于 自 适 
应 和 非 自 适应 的 ， 负 载 平 衡 、 投 标 ， 或 者 概率 性 的 和 一 次 性 分 配 与 动态 再 分 配 的 方法 。 

排队 论 
最 优 枚 举 


M 
近似 wh pemg 


局 部 最 优 一 | 图 论 
p 启发 式 


图 7-10 应 用 于 网 格 和 计算 机 集群 的 网 格 作 业 调度 方法 的 层次 分 类 


网 格 中 的 资源 通常 是 异 构 的 。 每 个 站 点 的 硬件 能 力 (如 处 理 器 数量 和 内 存 大 小 ) 和 软件 配 
置 可 能 不 同 。 传 统 调度 中 ， 不 考虑 站 点 间 的 差异 而 决定 资源 分 配 是 合理 的 。 但 是 这 在 网 格 上 是 不 
适用 的 。 调 度 器 必须 为 每 个 候选 资源 估计 作业 性 能 。 因 此 ， 我 们 需要 一 个 网 格 性 能 模型 来 评估 时 
间 成 本 和 网 格 应 用 效率 。 

动态 性 能 模型 在 估计 真实 网 格 应 用 时 更 为 准确 。 可 以 使 用 一 些 技巧 来 提高 模拟 模型 的 精度 ， 
因此 需要 对 应 用 程序 的 内 部 结构 或 程序 的 源 代码 进行 分 析 。 该 建 模 方法 可 能 将 单个 作业 的 总 体 

运行 时 间 分 割 为 几 部 分 ， 包 括 排队 时 间 、 数 据 传 输 时 间 和 计算 时 间 。 一 些 样本 数据 集 与 基准 测试 
程序 被 用 于 收集 信息 ， 训 练 性 能 模型 。 

网 格 资源 动态 分 配给 不 同 的 应 用 。 对 于 传统 分 布 式 系统 ， 系 统管 理 员 完全 控制 资源 。( 这 里 
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不 考虑 P2P， 因 为 作业 调度 不 是 它 的 主要 问题 。) 只 有 两 个 参与 者 【系统 与 用 户 ) 。 调 度 技术 可 
以 完全 专注 于 性 能 。 调 度 的 优化 目标 可 能 是 以 系统 为 中 心 的 或 者 以 应 用 为 中 心 的 。 然 而 ， 资 源 所 
有 者 有 权 确 定 网 格 中 共享 资源 的 数量 与 质量 。 网 格 有 三 个 参与 者 ; 网 格 系统 、 资 源 提供 商 与 资源 
消费 者 。 

如 果 没 有 任何 激励 资源 提供 商 不 愿意 共享 更 多 及 更 好 的 资源 。 所 以 网 格调 度 的 优化 目标 
必须 考虑 资源 提供 商 的 利益 。 最 常见 的 激励 是 基于 经 济 学 原则 为 作业 分 配 资源 。 在 基于 经 济 原 
则 的 网 格 计算 环境 ， 用 户 表达 他 们 对 服务 质量 的 需求 ， 以 及 对 不 同 级 别 的 服务 质量 的 合适 费用 。 
网 格 服务 提供 商 需要 制定 各 种 服务 的 成 本 模型 。 

7.3.2 CGSP 的 网 格 资源 监控 

一 般 情况 下 ， 当 我 们 讨论 解决 某 个 特定 问题 的 网 格 环境 监控 时 ， 会 涉及 诸多 因素 ， 包 括 目 标 
网 格 资源 、 相 关 网 格 中 间 件 和 它们 之 上 的 应 用 程序 组 件 。 

网 格 监控 的 生产 者 /消费 者 模型 

生产 者 /消费 者 模型 如 图 7-11 所 示 。 该 模型 提供 了 网 格 资源 监控 的 基本 架构 ， 支 持 用 户 所 
需 功 能 ， 并 加 强 不 同 网 格 资源 之 间 的 交互 操作 。 网 格 监控 数据 包括 短 生 命 周 期 、 经 常 性 的 变 
化 、 随 机 性 等 。 此 模型 应 该 满足 低 延 迟 、 高 传输 率 、 低 开销 、 安 全 性 和 可 扩展 性 的 要 求 。 特 
别 地 ， 网 格 监控 数据 的 发 现 与 传输 应 该 分 开 处 理 。 描 述 监控 数据 的 相关 元 数据 需要 存储 在 公 
共 的 位 置 。 






监控 服务 X 


消费 者 接口 











a) GMA 组 件 b) 中 介 
图 7-11 生产 者 /消费 者 网 格 监 控 模型 在 网 格 监控 体系 结构 (GMA) 中 的 实现 


例 7.6 用 于 资源 监控 的 ChinaGrid SuperVision (CGSV) 

在 ChinaGrid 中 ， 为 保持 这 样 一 个 复杂 的 分 布 式 系统 高 效 ， 监 控 系 统 是 必要 的 。CGSP 组 件 包括 
作业 管理 器 、 存 储 管理 器 和 信息 中 心 ， 根 据 不 同 目的 提供 系统 状态 信息 。CGSV 系统 (图 7-12) 专 
为 监控 ChinaGrid 性 能 而 设计 。 除 了 常见 的 库存 跟踪 任务 ，ChinaGrid 也 需要 CGSV 可 扩展 支持 不 
同类 型 的 数据 请 求 ， 以 及 具有 数据 处 理 和 传输 的 有 效 方法 。 

为 了 满足 这 些 需求 ，CGSV 被 设计 成 一 个 适应 能 力 强 的 、 流 集成 的 网 格 监控 系统 。 传 输 与 控 
制 协议 被 设计 成 通过 统一 的 方式 高 效 传输 各 种 类 型 的 测量 数据 ， 并 使 用 生产 者 行为 执行 修改 。 
再 次 发 表 模块 是 面向 流 的， 因为 它们 被 设计 为 支持 在 测量 数据 流 与 类 SQL 流 查询 接口 上 支持 基 
于 断言 的 处 理 。 

CGSV 的 设计 基于 开放 网 格 论坛 (OGF) 提出 的 GMA。CGSV PERE, RIEMER EA 
成 ,如 图 7-12 所 示 。 在 收集 层 ， 传 感 器 被 部 署 用 于 测量 数据 的 收集 。 传 感 器 -I 负责 收集 硬件 资 
源 信 息 。 其 他 信息 来 源 ， 包 括 网 络 状态 、 动 态 服务 信息 或 者 由 其 他 监控 工具 生成 的 数据 ， 经 由 适 
配器 封装 成 统一 的 数据 格式 。 
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438 | 于 减轻 监控 服务 的 通信 成 本 。 最 高 层 是 表示 层 ， 执 行 数 据 分 析 和 可 视 化 。 a 
7.3.3 服务 记 账 和 经 济 模型 

基于 经 济 原则 的 资源 交易 是 分 配 网 格 资源 的 有 效 方法 。 首 先 ， 资 源 提 供 商 在 网 格 市 场 中 登 

记 他 们 共享 资源 的 信息 。 资 源 信息 可 能 包括 硬件 容量 、 软 件 配置 和 价格 策略 。 然 后 ， 资 源 消费 者 

向 资源 中 介 提交 他 们 的 作业 及 其 特殊 需求 。 这 些 需求 可 能 包括 硬件 容量 、 软 件 配置 、 服 务 质量 和 

预算 。 接 下 来 ， 中 介 在 网 格 市 场 中 为 每 个 作业 搜索 和 分 配合 适 的 资源 。 当 顺利 完成 作业 时 ， 消 费 

者 要 为 所 分 配 的 资源 付费 。 图 7-13 显示 了 分 布 式 网 格 服务 的 记 账 系统 框架 。 在 接 下 来 的 段落 中 ， 


将 介绍 两 种 记 账 服务 。 






图 7-13 ”用 于 计 费 服务 的 网 格 记 账 系统 的 一 般 框架 


7.3.3.1 监控 和 计 费 服务 
该 组 件 从 网 格 服务 或 资源 直接 收集 原始 硬件 使 用 信息 (如 CPU 时 间 ) 。 一 般 来 说 ， 每 个 网 格 
服务 集 装 器 或 计算 节点 都 应 该 部 署 一 个 监控 组 件 。 收 集 到 的 原始 数据 被 转发 至 其 上 层 组 件 ， 即 
计 费 组 件 。 原 始 数据 可 以 通过 查询 网 格 服务 、 分 析 应 用 的 日 志 数据 或 直接 从 潜在 系统 中 获取 。 计 
费 服务 从 监控 组 件 获取 原始 使 用 信息 ， 并 提供 使 用 服务 的 收费 政策 。 收 费 政策 将 原始 使 用 事件 
映射 为 货币 收费 事件 。 收 费 政策 采用 指定 的 公式 ， 计 算 来 自 应 用 程序 、 用 户 及 结果 的 费用 。 
为 了 取得 良好 的 网 格 经 济 效益 ， 记 账 系统 需要 一 个 网 格 经 济 模型 。 记 账 系 统 收集 的 使 用 数 
据 是 对 客户 收费 的 依据 。 如 果 使 用 数据 是 伪造 的 或 被 恶意 服务 修改 ， 客 户 与 提供 商 账号 会 执行 
[4391 不 正确 的 操作 ， 网 格 经 济 秩序 将 被 严重 破坏 。 某 些 记 账 系统 已 经 采取 措施 来 保证 安全 性 。 
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Gridbus 的 记 账 系统 GridBank'®! ， 在 Globus Toolkit 套 接 字 上 使 用 SOAP。 远 程 服务 访问 通过 网 格 安 
全 基础 设施 认证 和 授权 。 网 格 通常 由 多 个 真实 组 织 构成 。 记 账 需要 在 多 个 域 进 行 ， 故 记 账 系统 必 
须 提供 标准 网 格 服务 的 访问 接口 。Globus Toolkit 是 网 格 服务 中 最 流行 和 实用 的 标准 。 

7.3.3.2 记 账 组 件 

记 账 模块 的 主要 功能 是 维护 资源 客户 和 提供 商 之 间 的 经 济 关 系 。 从 计 费 模块 接收 并 转换 收 
费事 件 ， 记 账 模块 记录 收费 事件 。 记 账 事件 是 会 被 每 个 网 格 用 户 账号 执行 的 行为 。 网 格 用 户 账号 
掌控 差额 信息 。 网 格 中 记 账 还 要 有 一 些 其 他 特征 ， 如 记 账 系统 的 安全 性 。 

在 过 去 的 几 年 ， 实 现 网 格 的 全 面 应 用 ， 需 要 解决 认证 、 授 权 、 资 源 发 现 、 资 源 访 问 这 些 基本 
问题 ， 更 重要 的 是 ， 解 决 资源 和 管理 策略 的 不 兼容 性 。 各 种 各 样 的 项 目 和 产品 提供 了 解决 这 些 问 
题 的 服务 。 一 些 网 格 中 间 件 库 被 开发 和 部 署 ， 包 括 常用 的 Globus Toolkit, glite 和 CGSP。 在 这 一 
节 中 ,我 们 专注 于 Globus Toolkit 和 CGSP 这 两 种 最 重要 的 网 格 中 间 件 库 ， 它 们 包括 各 种 各 样 的 系 
统 ， 并 且 提 供 了 多 数 网 格 部 署 技术 的 基础 。 

例 7.7 一 个 网 格 计算 经 济 模型 

图 7-14 显示 了 一 个 借助 于 成 本 效益 评估 网 格 计算 服务 的 通用 经 济 模型 。 除 了 用 户 (Z 
户 ) 和 提供 商 ， 计 算 经 济 模型 还 需要 一 些 其 他 组 件 。 交 易 管 理 器 标识 资源 访问 成 本 ; 网 格 市 场 
目录 人 允许 资源 所 有 者 公布 他 们 的 服务 ; 网 格 交易 服务 器 与 用 户 协商 ， 实 现 效 益 最 大 化 ; 价格 政策 
组 件 规定 资源 的 价格 ; 网 格 银行 记录 资源 使 用 情况 与 用 户 账单 。 资 源 协同 分 配 是 网 格调 度 的 特 
殊 需 求 。 网 格 中 某 些 种 类 的 应 用 程序 〈 例 如， 工作 流 、 多 站 点 应 用 ) 常常 需要 同时 从 多 个 站 点 


获取 多 个 资源 。 
信息 服务 
| | 网 格 市 场 服务 


ha ESE RS TR 





网 格 消费 者 网 格 资 源 中 介 网 格 中 间 件 服务 网 格 服务 提供 商 
图 7-14 评估 网 格 计算 服务 的 经 济 模型 ,部署 于 墨尔本 大 学 

tz: 由 Buyya FAL ee, 

例如 ， 交 互 式 数据 分 析 可 能 同时 需要 访问 几 个 资源 ， 如 存储 系统 中 的 数据 副本 、 用 于 分 析 的 
超级 计算 机 、 用 于 数据 传输 的 网 络 元 素 以 及 用 于 交互 的 显示 设备 。 二 相交 易 通 常 被 用 于 解决 协 
同 分 配 问题 。 为 了 请 求 多 个 资源 ， 第 一 步 是 获得 合适 的 资源 。 第 二 步 是 绑 定 用 于 特定 应 用 的 资 
源 。 如 果 任 意 资源 的 委任 失败 ， 则 所 有 资源 的 委任 将 被 取消 ， 系 统 将 为 该 请 求 寻 找 一 个 新 的 解决 
方案 。 = 
7.3.4 Gridbus 的 资源 中 介 

图 7-15 从 操作 角度 显示 了 网 格 环境 ， 各 组 件 根据 它们 的 部 署 与 功能 进行 划分 。 为 了 划分 该 
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网 格 的 资源 组 成 ， 需 要 从 不 同 的 管理 域 理 解 。 这 可 以 通过 在 UNIX/Linux 环境 安装 核心 网 格 中 间 
件 (如 Globus) 来 实现 。 多 节点 集群 需要 作为 网 格 的 单一 资源 ， 可 以 通过 部 署 作业 管理 系统 达 
成 ， 如 Sun 网 格 引擎 。 















应 用 程序 代码 
© 
可 视 化 应 用 程序 
四 


(工具 /分 布 的 资源 ) 


网 格 银行 






e E 

网 格 服务 提供 商 GSP GSP GSP GSP 

(GSP) (如 CERN ) ( 如 IBM ) ( 如 UofM ) (如 VPAC ) (WERS ) 
440 图 7-15 网 格 资源 中 介 管 理 作业 调度 与 执行 


注 : 由 Buyya 和 Bubendorfer (编辑 ) [9 提供 。 


在 网 格 环境 下 ， 数 据 需 要 结合 起 来 ， 用 于 有 关 方 的 共享 及 数据 网 格 技术 ， 如 需要 部 署 的 
SRB, Globus RLS 和 EU DataGrid。 用 户 级 中 间 件 被 部 署 在 资源 之 上 ， 负 责 提 供 资 源 中 介 和 应 用 运 
行 管理 服务 。 用 户 可 以 通过 Web 门户 访问 这 些 服务 。 一 些 网 格 资源 中 介 已 经 得 到 应 用 ， 其 中 具 
有 代表 性 的 是 Nimrod-G、Condor-G 、GridWay 和 Gridbus 资源 中 介 。 聚 集 网 格 资源 的 11 个 步骤 
如 下 : 

1. 用 户 使 用 可 视 化 的 应 用 开发 工具 将 他 的 应 用 组 成 为 一 个 分 布 式 应 用 (例如 ， 参 数 扫描 
分 析 ) 。 

2. 用 户 指定 他 的 分 析 与 服务 质量 需求 ， 并 提交 至 网 格 资源 中 介 。 

. 网 格 资源 中 介 使 用 网 格 信息 服务 组 件 进 行 资源 发 现 。 
. 中 介 通 过 查询 网 格 市 场 目 录 识 别 资 源 服务 价格 。 

. 中 介 查 询 数据 来 源 或 副本 列表 ， 并 选择 最 佳 的 。 

. 中 介 获 得 提供 所 需 服务 的 计算 资源 。 

. 中 介 保 证 用 户 有 必要 的 信用 或 权限 共享 这 些 资源 。 

. 中 介 调 度 器 分 析 资 源 以 满足 用 户 的 服务 质量 需求 。 

. 代理 资源 中 介 执 行 作业 并 返回 结果 。 

10. 中 介 整 理 结果 ， 并 传递 给 用 户 。 

11. 计 费 器 向 会 计 师 传递 资源 使 用 信息 ， 收 取 用 户 费用 。 

例 7.8 墨尔本 大 学 的 Gridbus 体系 结构 

会 计 师 公布 资源 共享 分 配 或 信用 利用 率 。Gridbus Resource Brokerl"%! 是 一 个 面向 市 场 的 元 调度 
器 ， 用 于 计算 和 数据 网 格 ， 支 持 广泛 的 网 格 中 间 件 和 服务 。 它 关心 网 格 应 用 所 需 的 很 多 功能 ， 包 括 
发 现 特定 用 户 应 用 的 合适 资源 、 在 最 后 期 限 前 调度 作业 ， 以 及 处 理 可 能 在 执行 中 发 生 的 故障 。 

特别 需要 指出 的 是 ， 中 介 为 需要 分 布 式 网 格 资源 的 任意 应 用 提供 诸如 资源 选择 、 作 业 调 度 、 
作业 管理 和 数据 访问 等 能 力 。 中 介 处 理 运 行 于 不 同 网 格 中 间 件 的 资源 间 的 通信 、 作 业 失 效 、 不 同 . 
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资源 可 用 性 ， 以 及 不 同 的 用 户 目标 ， 如 在 最 后 期 限 前 执行 或 限制 在 一 定 预算 之 下 。Gridbus 中 介 
的 设计 遵循 包含 接口 、 核 心 和 执行 的 分 层 体系 结构 ,为 面向 市 场 的 中 介 提 供 如 图 7-16 所 示 的 
能 力 。 











图 7-16 Gridbus 资源 中 介 体系 结 # 构 及 其 与 许多 公共 或 私有 网 格 / 云 的 交互 


注 : Courtesy of Buyya and Bubendorfer (editors) [9] 


接口 层 由 API 和 分 析 程 序 组 成 ， 用 于 文件 输入 ,使 外 部 程序 与 用 户 联系 到 中 介 。 资 源 发 现 和 
协商 、 调 度 以 及 作业 监控 在 核心 层 执行 。 作 业 执 行 在 执行 层 实现 ， 并 且 在 该 层 中 专用 中 间 件 适 配 
器 与 目标 资源 相互 通信 。 在 Gridbus 中 介 中 ,专用 中 间 件 适配器 被 作为 插件 ， 通 过 网 格 中 间 件 ， 
如 Globus 和 企业 云 应 用 平台 (如 Aneka) ， 支 持 可 访问 资源 上 的 作业 部 署 。 

中 介 也 运行 于 公有 云 ， 如 Amazon EC2， 并 通过 排队 系统 (A PBS, Condor 和 SGE) 管理 的 
集群 上 的 SSH 支持 远程 作业 执行 。 中 介 根 据 用 户 目 标 和 资源 类 型 ,选择 不 同类 型 的 调度 策略 。 
目前 ， 中 介 可 以 调节 计算 、 存 储 、 网 络 和 信息 资源 ， 其 收费 基于 时 间 (如 1 Grid Dollar/s) RX 
Æ (如 1 Grid DollarMB)。 它 也 能 适应 用 户 目标 ， 例 如 ， 对 计算 和 数据 密集 型 应 用 ， 在 预算 许可 
的 范围 内 的 最 快 计 算 〈 时 间 最 优 ) ， 或 在 规定 期 限 内 的 最 低 成 本 计算 (成 本 最 优 )。 计 算 密 集 型 
算法 基于 Nimrod/G"! 之 前 的 研究 。 a 


7.4 网 格 计算 的 软件 与 中 间 件 


在 这 一 节 ， 我 们 将 学 习 研 究 多 年 的 网 格 计算 的 中 间 件 库 。 首 先 ， 我 们 给 出 开源 中 间 件 包 的 综 
述 。 然 后 ， 我 们 介绍 基于 版 本 GT4 的 Clobus Toolkit， 并 对 Globus 集 装 器 概念 和 网 格 资源 分 配 管 
， 理 器 进行 更 详细 的 讨论 。 最 后 ， 我 们 研究 ChinaGrid 项 目 专用 的 CGSP Æ, 
7.4.1 开源 网 格 中 间 件 包 

回顾 Berman, Fox 和 Hey’ 的 文献 ， 在 过 去 15 年 ， 用 于 网 格 计算 的 许多 软件 、 中 间 件 和 编程 环境 
被 开发 。 接 下 来 ， 我 们 将 评估 最 近 公布 的 应 用 的 相对 强度 和 限制 。 我 们 首先 介绍 一 些 网 格 标准 和 通用 
API。 接 下 来 ， 我 们 提出 网 格 计算 所 需 的 软件 支持 和 中 间 件 开发 。 表 7-6 总 结 了 4 种 网 格 中 间 件 包 。 
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表 7-6 网 格 软 件 支持 和 中 间 件 包 





简要 描述 ， 本 书 的 引用 和 涵盖 
伯克利 开放 基础 设施 ， 用 于 网 络 计算 
德国 网 格 计算 田 体 开发 的 中 间 件 


中 闻 件 库 ， 由 阿 贡 国 家 实验 室 、 世 加 哥 大 学 和 USC 信息 科学 学 院 联合 开发 ， 并 得 到 
DARPA, NSF 和 NIH 的 资金 支持 (7.4.2 节 、7.4.3 节 和 7.4.5 节 ) 


CGSP (ChinaGrid 支持 平台 ) 是 一 个 中 间 库 ， 由 中 国 的 20 所 顶尖 大 学 开发 ， 是 ChinaGrid 
项 目的 一 部 分 (7.5.4 节 ) 


起 初 由 威斯康星 大 学 开发 ， 用 于 一 般 分 布 式 计算 ， 后 来 扩展 为 Condor-G ， 专 用 于 网 格 作 
业 管 理 ( 例 7.9) 


由 Sun Microsystems 开发 ， 以 响应 商业 网 格 应 用 的 需求 ， 并 应 用 于 企业 或 校园 内 的 专用 网 
格 和 本 地 集群 〈( 例 7. 10) 
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7.4.1.1 网 格 标准 和 API 

网 格 标准 已 经 发 展 了 数 年 之 久 。 开 放 网 格 论坛 〈 正 式 的 全 球 网 格 论坛 ) 和 对 象 管理 组 织 是 
这 些 标准 的 两 个 制定 组 织 。 我 们 在 第 5 章 和 7.1.3 节 介 绍 了 0GSA。 在 第 $ 章 ， 我 们 也 介绍 了 一 
些 网 格 标准 ， 包 括 资源 表示 的 GLUE, SAGA, GSI, OGSI 和 WSRE, 

GSI 将 在 7. 5. 5 节 学 习 。 网 格 标准 指导 了 网 格 计算 中 某 些 中 间 件 库 和 API 工具 的 开发 ， 它 们 
被 用 于 研究 网 格 与 产品 网 格 。 研 究 网 格 包括 EGEE、 法 国 Grilles、D-Grid (德国 )、CNGrid (中 
国 ) 和 TeraGrid (美国 ) 等 。 按 照 标准 建立 的 产品 网 格 有 EGEE, INFN 网 格 (意大利 )、 
NorduGrid Sun Grid Techila 和 Xgrid!?! 。 下 面 将 回顾 基于 这 些 标准 的 软件 环境 和 中 间 件 实现 。 

7.4.1.2 软件 支持 和 中 间 件 

网 格 中 间 件 是 为 硬件 和 软件 之 间 专 门 设计 的 层次 。 中 间 件 产品 使 得 可 以 共享 异 构 资源 ， 并 
管理 网 格 周边 构建 的 虚拟 组 织 。 中 间 件 连接 已 分 配 的 资源 到 特定 用 户 应 用 程序 。 流 行 的 网 格 中 
间 件 工具 包括 Globus Toolkits (美国 ) 、gLight、UNICORE (德国 ) BOINC (加 州 大 学 伯克利 分 
校 )、CGSP (中 国 )、Condor-G 和 Sun Grid Engine 等 “1。 表 7-6 总 结 了 自 1995 年 以 来 为 网 格 系统 
开发 的 软件 支持 和 中 间 件 包 。 在 接 下 来 的 章节 ， 我 们 将 描述 Condor-G、SGE、GT4 和 CGSP 的 
特点 。 

例 7.9 介绍 了 威斯康星 大 学 开发 的 Condor 和 Condor-G 的 配对 能 力 。 例 7.10 讨论 了 Sun 
Microsystems 为 商业 网 格 计算 开发 的 Sun Grid Engine 的 特征 。 

例 7.9 用 于 网 格 计算 的 Condor Kernel 和 Condor-G 的 特征 

Condor 是 一 个 用 于 高 吞吐 量 分 布 式 批量 计算 的 软件 工具 ， 其 目的 是 利用 分 布 式 计算 机 网 络 
的 空闲 周期 。Condor 的 主要 组 件 是 用 户 代 理 、 资 源 和 匹配 器 ， 如 图 7-17 所 示 。ClassAds (分 类 广 
告 ) 语言 被 用 于 Condor， 用 来 表示 分 布 式 系统 中 用 户 对 可 用 资源 的 请 求 。 代 理 和 资源 按照 
ClassAds 的 格式 告知 中 央 匹 配器 其 状态 和 需求 。 中 央 匹 配器 扫描 这 些 ClassAds， 并 创建 相互 满足 
需求 的 (资源 ， 代 理 ) 对 。 

随后 ， 匹 配 的 代理 与 可 用 资源 相互 协作 执行 这 个 作业 。Condor 提供 了 两 个 问题 解决 方案 : 
主 服务 器 -服务 器 与 DAG 管理 器 。 对 于 特定 作业 ，Condor 记录 检查 点 ， 随 后 可 从 该 检查 点 恢复 
程序 执行 。 在 没有 共享 文件 系统 的 远程 机 器 上 运行 作业 时 ，Condor 通过 远程 系统 调用 访问 本 地 
执行 环境 。Condor-G 的 设计 符合 GRAM 协议 〈 将 在 7.4.4 节 涉及 )， 用 于 耦合 Globus 项 目 中 的 作 
业 和 资源 。Condor-G 增加 了 持久 性 和 二 相 委 托 ， 防 止 GRAM 中 作业 的 丢失 与 重复 。 然 而 ， 
Condor-G 并 不 支持 GRAM 的 全 部 特性 。 = 
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图 7-17 Condor 系统 的 主要 功能 组 件 


例 7. 10 Sun Grid Engine (SGE) 中 间 件 包 

Sun Microsystems 为 响应 日 益 增长 的 商业 网 格 应 用 需求 ， 开 发 了 SGE, SCE 的 特点 是 为 企业 
或 校园 的 专用 网 格 和 本 地 集群 提供 基于 内 联网 的 集群 或 网 格 应 用 。 该 系统 支持 网 格 资源 动态 分 
配 的 批 处 理 ， 故 障 容错 和 切换 功能 也 被 实现 。 用 户 指定 资源 时 可 以 不 考虑 提交 地 点 。 作 业 状 态 和 
资源 利用 率 被 定期 监控 。 

Sun 提供 SCE 包 的 免费 版 和 企业 版 。 该 系统 可 集中 管理 分 配给 独立 作业 的 所 有 资源 ， 提 高 了 
效率 和 性 能 ; 同时 也 提供 了 暂停 和 恢复 工具 ,使 得 用 户 可 以 在 不 丢失 已 完成 任务 的 前 提 下 ， 暂停 
作业 各 稍 后 重启 作业 。SGE 工作 流 遵循 下 列 事件 顺序 : 

© 从 用 户 接收 作业 。 

e 将 作业 放置 在 一 个 计算 机 域内 ， 直 至 执行 。 

e 将 作业 从 保持 域 发 送 至 可 以 被 执行 的 主机 。 

。 在 执行 期 间 管理 作业 。 

e 当 执 行 结束 后 ， 记 录 它 们 的 执行 日 志 。 

SGE AMEH, Kerberos, DCE, SSL 和 分 类 主机 认证 ， 维 护 在 不 同 信任 级 别 和 资 
源 访问 限制 中 的 安全 性 。 a 
7.4.2 Globus Tookit 体系 结构 ( GT4) 


Globus Toolkit 由 DARPA 自 1995 年 开始 资助 ， 是 用 于 网 格 计算 社区 的 开放 中 间 件 库 。 这 些 开 
源 软件 库 在 国际 范围 内 支持 许多 操作 网 格 及 其 应 用 程序 ， 解 决 了 网 格 资源 发 现 、 管 理 、 通 信 、 安 
全 、 故 障 检测 和 可 移植 性 中 的 共性 问题 。 软 件 本 身 提供 各 式 组 件 和 能 力 ， 其 库 包括 服务 实现 的 丰 
富 集合 。 
实现 的 软件 支持 网 格 基础 设施 管理 ， 提 供 使 用 Java, C 和 Python 编写 的 新 型 Web 服务 的 工 
具 ， 建 立 强大 的 基于 标准 的 安全 基础 设施 和 客户 端 API 〈 用 不 同 的 语言 ) ， 并 提供 访问 各 种 网 格 
服务 的 综合 命令 行程 序 。Globus Toolkit 的 最 初 动机 是 希望 清除 障碍 ， 保 证 无 缝 协作， 在 科学 与 工 
程 应 用 中 实现 资源 与 服务 的 共享 。 共 享 的 资源 可 以 是 计算 机 、 存 储 、 数 据 、 服 务 、 网 络 、 科 学 仪 
器 (如 传感器 ) 等 。Globus 库 的 GT4 版 本 在 概念 上 如 图 7-18 所 示 。 

7.4.2.1 GT4 库 

CTA 在 网 格 应 用 中 提供 中 级 核心 服务 。 高 级 服务 和 工具 (如 MPI、Condor-G 及 Nirod/G) 由 
第 三 方 开发 ， 且 适用 于 通用 目的 分 布 式 计算 应 用 。LSF、TCP、Linux 和 Condor 等 本 地 服务 位 于 底 
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层 ， 是 由 其 他 开发 者 提供 的 基本 工具 。 表 7-7 依据 模块 名 称 总 结 了 GT4 的 核心 网 格 服务 。 从 本 质 
上 说 ， 这 些 功能 模块 帮助 用 户 发 现 可 用 资源 、 在 站 点 间 移 动 数据 和 管理 用 户 凭证 等 。 作 为 网 格 中 
间 件 的 实际 标准 ，GT4 是 基于 标准 工业 Web 服务 技术 的 。 


应 用 程序 


高 级 服务 与 工具 
PUNCH 


核心 服务 


(“cass J 
Eca Clobus 安 全 接口 | AMBR | 
I CMDS) (681) 


图 7-18 Globus Tookit GT4 支持 分 布 式 与 集群 计算 服务 
注 ， 由 工 Foster[7] 提 供 。 





表 7-7 Globus GT4 库 的 功能 性 模块 








服务 功能 功能 描述 
全 局 资源 分 配 管理 器 网 格 资源 访问 与 管理 〈 基 于 HTTP) 
通信 单 播 和 多 播 通信 
网 格 安全 基础 设施 CSI 认证 及 相关 安全 服务 
监控 和 发 现 服务 分 布 式 访问 结构 和 状态 信息 
健康 与 状态 HBM 系统 组 件 的 心跳 监控 
二 级 存储 的 全 局 访问 远程 二 级 存储 中 数据 的 网 格 访问 
网 格 文件 传输 节点 间 的 快速 文件 传输 


注 ， 由 Ian Foster[17] 提供 。 


在 7.4.3 FH, 我们 将 分 析 基 于 HTTP 的 GRAM 和 MDS 模块 。Nexus 用 于 收集 通信 ，HBM 
447 | 用 于 资源 节点 的 心跳 监控 。GridFTP 用 于 加 快 节点 之 间 的 文件 传输 。GASS 模块 用 于 二 级 存储 的 
全 局 访问 。GSI (网 格 安全 基础 设施 ) 将 在 7.5 节 介 绍 。Globus GT4 功能 模块 和 应 用 程序 的 更 多 
细节 可 参见 www. globus. org/toolkit/ 。 
7.4.2.2 Globus 作业 工作 流 
图 7-19 显示 了 使 用 Globus 工具 的 典型 作业 工作 流 。 典 型 作业 执行 顺序 如 下 : 用 户 发 送 他 的 
证 书 至 委托 服务 (delegation service), HA m GRAM 提交 作业 请 求 ， 委 托 证 书 作为 其 中 的 一 个 参 
数 。GRAM 解析 请 求 ， 并 从 委托 服务 获取 用 户 代 理 证 书 ， 然 后 代表 用 户 利 益 运 行 。GRAM 发 送 转 
移 请 求 至 RFT (Reliable File Transfer， 可 靠 文 件 传输 )， 它 提供 GridFTP 以 获取 必要 的 文件 。 
GRAM 通过 GRAM 适配器 唤醒 本 地 调度 器 ， 且 SEG (Scheduler Event Generator， 调 度 事 件 生成 器 ) 
启动 一 系列 用 户 作业 。 本 地 调度 器 将 作业 状态 报告 至 SEG。 一 旦 完成 作业 ，CRAM 使 用 RFT 和 
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GridFTP 显示 相应 文件 。 网 格 监控 这 些 操作 的 进展 ， 并 在 它们 成 功 、 失 败 或 推迟 时 ， 通 知 用 户 。 





图 7-19 交互 功能 模块 间 的 Globus 作业 工作 流 
注 ; 由 Foster 和 Kesselman[151 提 供 。 
7.4.2.3 客户 端 Clobus 交互 
GT4 服务 程序 支持 用 户 应 用 程序 ， 如 图 7-20 所 示 。 在 提供 商 程序 和 用 户 代码 之 间 存 在 很 多 
交互 。GT4 在 服务 描述 、 发 现 、 访 问 、 认 证 与 授权 等 相关 操作 中 ， 大 量 使 用 标准 工业 Web 服务 
协议 和 机 制 。 由 于 GT4， 用 户 代 码 可 以 采用 Java, C 和 Python 编写 。Web 服务 机 制 为 网 格 计算 定 
义 了 专用 接口 。 网 络 服务 提供 灵活 的 、 可 扩展 的 和 普 适 的 基于 XML 的 接口 。 [448] 


g 
zelel g s 


图 7-20 客户 端 与 CT4 服务 器 交互 ;垂直 矩形 表示 服务 程序 ， 水 平 矩形 表示 用 户 代码 
注 ; 由 Foster 和 Kesselman[15] 提供 。 


在 一 般 情 况 下 ，GT4 组 件 不 直接 解决 终端 用 户 的 需求 。 相 反 ，GT4 提供 一 套用 于 访问 、 监 
控 、 管 理 和 控制 访问 基础 设施 元 素 的 基础 设施 服务 。 图 7-20 垂直 矩形 中 所 示 的 服务 器 代码 与 被 
KEHF GT4 库 的 15 个 网 格 服务 相对 应 ， 其 需要 计算 、 通 信 、 数 据 和 存储 资源 。 我 们 必须 采用 
一 系列 终端 用 户 工具 ， 以 提供 特定 用 户 程序 所 需 的 高 级 功能 。 只 要 有 可 能 ，GT4 实施 相应 标准 ， 
以 促进 可 操作 性 与 可 复 用 用 户 代码 的 构建 。 开 发 人 员 可 以 使 用 这 些 服务 和 库 便捷 地 建立 简单 和 
复杂 的 系统 。 

高 安全 子 系统 解决 信息 保护 、 认 证 、 委 托 和 授权 。GT4 由 一 系列 服务 实现 (图 7-21 底层 的 服 
务 器 程序 ) 和 顶层 的 相关 客户 库 组 成 ， 提供 Web 服务 和 非 Web 服务 应 用 。 客 户 端 域 水 平 矩形 表示 


Comm. auth. 
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自 定义 的 应 用 程序 和 访问 GT4 服务 的 第 三 方 工具 。 该 工具 包 提 供 一 系列 有 用 的 基础 设施 服务 。 


Http 引擎 /Web 服务 器 
| SOAP 引擎 NJ WS 集 装 器 
服务 分 配器 
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自 定义 WSRF 


GT4 WSRF 
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WS 寻 址 、WSRF、WS-Security 


WSDL, SOAP, WS-Notification 
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b ) 集 装 器 的 功能 
图 7-21 在 网 格 平台 上 实现 Web 服务 时 ，Globus 集 装 器 作为 运行 时 环境 


三 个 集 装 器 分 别 用 于 主机 用 户 自行 开发 的 Java、Python 和 C 服务 。 这 些 集 装 器 提供 安全 、 管 
理 、 发 现 和 状态 管理 的 实现 ， 以 及 在 创建 服务 时 需要 的 其 他 机 制 。 它 们 支持 一 系列 有 价值 的 Web 
服务 规范 , 包括 WSRF. WS-Notification 和 WS-Security， 扩 展 了 开源 服务 主机 环境 。 

客户 端 库 使 得 客户 端的 Java、C 和 Python 程序 可 以 调用 GT4 和 用 户 自行 开发 服务 中 的 操作 。 
在 很 多 情形 下 ， 多 个 接口 提供 不 同 级 别 的 控制 例如， 在 GridFTP 的 情形 下 ， 不 仅仅 有 一 个 简单 
的 命令 行 客户 端 (globus-url-copy) ， 还 有 用 于 程序 的 控制 和 数据 通道 库 ， 以 及 允许 替代 传输 集成 
的 XIO 库 。 统 一 抽象 和 机 制 的 使 用 意味 着 客户 端 可 以 与 不 同 服务 采用 相似 方式 交互 ， 这 有 利于 
复杂 的 互 操作 系统 的 建设 ， 并 鼓励 了 代码 重用 。 

7.4.3 集 装 器 和 资源 /数据 管理 

在 这 一 节 中 ， 首 先 ， 我 们 将 通过 介绍 GT4 工具 集中 的 GRAM 模块 来 阐述 集 装 器 的 概念 。 然 
后 ,我 们 解释 在 任意 开放 网 格 的 资源 与 数据 管理 中 ， 如 何 使 用 GRAM 和 MDS, GRAM 通过 协调 
文件 分 期 ， 支 持 动态 作业 执行 。MDS 在 网 格 执 行 环境 中 ， 监 控 和 发 现 可 用 的 网 格 资源 。 

7.4.3.1 使 用 GRAM 的 资源 管理 

GRAM 模块 支持 Web 服务 启动 、 监 控 和 管理 开放 网 格 中 远程 计算 机 上 的 计算 作业 的 执行 。 
GRAM 建立 于 各 种 本 地 资源 分 配 服务 之 上 。 采 用 标准 化 的 GRAM 接口 可 以 访问 各 种 本 地 资源 管 
理工 具 ， 其 中 一 些 来 自 集群 和 网 格 计算 供应 商 ， 可 从 市 面 上 获得 ， 如 第 2 章 介绍 的 负载 共享 设 
备 、 网 络 队列 环境 、IBM 的 LoadLeveler 和 Condor。 该 接口 使 得 客户 端 可 以 表示 资源 类 型 和 数量 、 
传送 和 执行 来 自 站 点 的 数据 、 可 执行 代码 及 其 参数 、 采 用 的 安全 认证 ， 以 及 作业 持续 的 需求 。 其 
他 操作 使 得 客户 端 可 以 监控 已 分 配 资 源 和 运行 任务 的 状态 ， 并 通知 用 户 它们 的 状态 ， 以 及 指导 
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网 格 上 作业 的 执行 。 

GRAM 的 核心 包括 一 组 Web 服务 ， 用 来 运行 Globus 网 络 Web 资源 框架 (Globus Web Services 
Resource Framework, WSRF) 的 核心 主机 环境 。 每 个 提交 的 作业 将 获得 满足 请 求 服务 的 特定 资 
源 。 服 务 提供 监控 作业 状态 或 终止 作业 的 接口 ， 可 以 通过 本 地 调度 器 访问 每 个 计算 元 素 。 服 务 也 
提供 了 创建 管理 作业 资源 的 接口 ， 以 完成 其 本 地 调度 器 中 的 作业 ， 具 体 描述 如 作业 工作 流 图 解 
所 示 。 

7.4.3.2 Globus R 8B: 一 个 运行 时 环境 

Globus 集 装 器 (也 称 为 Web 服务 核心 或 WS 集 装 器 ) 为 托管 需要 执行 网 格 作业 的 Web 服务 
提供 了 一 个 基础 运行 时 环境 。 图 7-21a 显示 了 集 装 器 的 概念 。 该 集 装 器 采用 了 大 量 SOAP 引擎 构 
Æ, SOAP 的 主要 执行 功能 包括 传人 作业 请 求 和 相应 响应 的 传输 。 通 常会 经 由 HTTP 引擎 或 Web 
服务 器 为 传输 SOAP 消息 分 割 主机 环境 逻辑 。 

图 7-21b 总 结 了 集 装 器 的 功能 。 所 有 WS 集 装 器 可 以 作为 消息 传输 协议 在 HTTP 引擎 上 执行 
SOAP 命令 。 传 输 级 和 消息 级 安全 在 所 有 的 通信 中 都 必须 实现 ，WS 寻 址 、WSRF 和 WS- 
Notification 功能 也 被 实现 。 集 装 器 使 用 Jakarta 日 志 记 录 ， 并 为 其 内 部 部 署 的 网 格 服务 定义 了 
WSRF WS-Resources, Alt, f£ fa] GT4 集 装 器 都 可 以 同时 持 有 多 个 作业 的 许多 服务 。 

集 装 器 支持 自 定 义 Web 服务 和 主机 服务 ， 其 客户 端 接口 使 用 了 WRF 及 其 相关 机 制 。 集 
装 器 还 具有 由 GT4 (如 GRAM, MDS 和 RFT) 提供 的 高 级 服务 。 应 用 客户 端 使 用 Globus 集 装 
器 注册 接口 来 确定 娜 些 服 务 被 安置 在 某 个 特定 的 集 装 器 中 。 集 装 器 管理 接口 用 于 实现 日 常 管 
理 功能 。 在 撰写 这 些 内 容 时 ，GT4 套件 中 已 存在 采用 Java, CA Python 编写 的 Web 服务 集 
装 器 。 

7.4.3.3 GT4 数据 管理 

网 格 应 用 通常 需要 提供 入 口 ， 以 聚集 多 站 点 上 的 大 量 数据 。GT4 工具 可 以 单独 或 联 同 其 他 工 
具 进 行 高 效 数据 访问 。 下 面 列表 简要 介绍 了 这 些 GT4 相关 工具 : 

1. GridFTP ”支持 高 带宽 WAN、 内 存 到 内 存 、 磁 盘 到 磁盘 的 可 靠 、 安 全 及 快速 数据 移动 。 相 
较 于 互联 网 文件 传输 的 通用 FTP 协议 ，GridFTP 增加 了 额外 特性 ， 如 并 行 数据 传输 、 第 三 方 数据 
传输 和 条 纹 数据 传输 。 此 外 ，GridFTP 受益 于 安全 数据 信道 的 Globus 安全 基础 设施 (CSI, HE 
7.5.5 节 学 习 ) 的 强大 服务 ， 确 保 了 可 认证 性 与 可 重用 性 。 据 报道 ， 网 格 在 一 些 WAN 已 达到 
27GB/s 的 端 到 端 传输 速度 。 

2. RFT 提供 了 多 个 GridFTP 传输 的 可 靠 管理 ， 一 直 用 于 配合 许多 站 点 间 数 百 万 文件 的 同时 
传输 。 451 

3. RLS (Replica Location Service， 副 本 位 置 服务 ) ”是 一 个 可 扩展 系统 ， 用 于 维护 和 提供 副 
本 文件 与 数据 集 的 位 置信 息 的 访问 方式 。 

4. OGSA-DAI (Globus 数据 访问 与 集成 ) 该 工具 由 UK e-Science 项 目 设 计 开 发 ， 提 供 关系 
和 XML 数据 库 的 访问 方式 。 

7.4.3.4 MDS 服务 

在 任何 分 布 式 系统 中 ， 监 控 与 发 现 都 是 两 个 重要 功能 。 这 两 项 功能 都 需要 具有 从 多 个 分 布 
式 信息 来 源 收集 信息 的 能 力 。GT4 在 基础 级 别提 供 了 监控 和 发 现 支持 。 图 7-22 显示 了 Globus 
MDS 基础 设施 。 通 过 实施 WSRF 和 WS-Notification 规范 ，GT4 使 得 网 络 实体 具有 基于 XML 的 资 
源 属性 ， 并 建立 了 多 个 集 装 器 实现 MDS 标签 、GridFTP 和 其 他 需要 考虑 监控 与 可 用 资源 发 现 的 功 
能 。 网 格 服务 可 以 在 分 布 式 集 装 器 中 注册 。 
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此 外 ，GT4 提供 了 两 种 集成 服务 ， 从 基于 XML 或 者 其 他 的 信息 来 源 收集 数据 。 另 外 ，GT4 
提供 了 多 种 浏览 器 界面 、 命 令 行 工具 及 Web 服务 接口 ， 允 许 用 户 查 询 和 访问 收集 的 信息 。 特 别 
地 ，WebMDS 服务 由 XSLT 转换 配置 ， 用 来 创建 索引 数据 的 特定 显示 。 这 些 机 制 提供 了 监控 分 布 
式 组 件 不 同 集成 的 有 力 框 架 。GRAM、MDS 及 其 他 有 趣 工具 的 细节 可 以 参考 GT4 网 站 : http:// 
www. globus. org/ o 


GT4 集 装 器 








WebDMDS 


GT4 集 装 器 






图 7-22 GT4 系统 监控 与 资源 发 现 基 础 设施 


注 ， 由 Ian Foster[17] 提 供 。 


7.4.4 ChinaGrid 支持 平台 (CGSP) 


CGSP 由 中 国 20 所 高 校 联合 开发 ， 用 于 构建 ChinaGrid。CGSP 包 提 供 多 域 Web 服务 的 
第 一 步 。 不 同 于 GT4 ，CGSP 提供 软件 平台 ,而 不 是 工具 库 。CGSP 涵盖 来 自用 户 接 口 的 所 
有 事件 ， 为 给 定 应 用 提供 异 构 资源 集成 。 它 使 得 用 户 更 接近 于 网 格 开 发 者 和 领域 专家 。 
CGSP 已 被 试用 于 ChinaGrid 上 的 图 像 处 理 、 生 物 信息 学 、 远 程 教 育 、 计 算 流 体力 学 和 大 规 

模 信息 处 理 。 
表 7-8 显示 了 构建 CGSP 的 功能 模块 。ChinaGrid 由 在 为 中 国 研究 和 高 等 教育 构建 一 个 公共 的 
网 格 服务 系统 。CGSP 集成 各 种 异 构 资 源 ， 特 别 是 分 布 在 中 国 CERNET 的 教育 和 研究 资源 。CGSP 
集成 顶层 门户 到 底层 资源 ， 为 网 格 的 构建 提供 了 一 个 网 格 平台 。 其 支持 异 构 资 源 、 门 户 建立 、 作 
业 定 义 、 服 务 包 装 和 网 格 监控 的 统一 管理 ， 并 提供 了 一 个 可 扩展 的 网 格 框架 ， 服 务 于 中 国 的 100 

















所 重点 大 学 。 
表 7-8 CGSP 库 的 功能 性 组 件 
组 件 简要 描述 
服务 集 装 器 为 服务 的 安装 、 部 署 、 运 行 和 监控 ， 特 别 是 CGSP 的 核心 服务 ， 提 供 基 本 环境 
安全 管理 器 专注 于 用 户 身 份 认证 、 身 份 映射 、 服 务 和 资源 的 授权 ， 以 及 CGSP 节点 间 的 安全 消息 传递 
信息 中 心 E a TRA CGSP 服务 提供 服务 注册 、 发 布 、 元 数据 管理 、 服 务 查询 、 服 务 匹配 及 资 





阻止 用 户 直 接 访问 底层 异 构 存 储 资源 ， 提 供 统一 存储 资源 访问 模式 
接收 用 户 的 作业 执行 请 求 ， 根 据 作业 描述 调用 响应 的 服务 ， 并 在 其 整个 生命 周期 中 管理 作业 
负责 用 户 管理 、 登 录 和 记 账 ， 以 及 不 同 CGSP 域 之 间 的 用 户 身 份 映射 


名 为 ChinaGrid Super Vision (CGSV) ， 主 要 专注 于 CGSP 资源 负载 、QoS、 用 户 行为 、 作 业 状 
态 和 网 络 的 监控 ， 以 确保 系统 正常 运行 ， 并 提高 网 格 性 能 


门户 学 习 CCSP 服务 以 及 为 新 网 格 应 用 提供 支持 的 网 页 


数据 管理 器 











域 管理 器 
网 格 监控 器 
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CGSP 软件 平台 符合 OGSA 标准 和 WSRF 准则 。 所 有 的 软件 、 硬 件 、 存 储 和 网 络 技术 均 为 用 
户 的 虚拟 资源 。 与 Globus 一 致 ，CGSP 强调 高 度 的 资源 共享 和 协作 。CGSP 由 9 个 主要 组 件 构成 ， 
如 表 7-8 中 的 简要 介绍 。 此 外 ，CGSP 提供 了 一 套 API 和 工具 包 ， 帮 助 终端 用 户 和 开发 者 编写 网 
格 程序 ， 以 及 查询 和 部 署 他 们 的 应 用 。 

CGSP 作业 执行 流 

图 7-23 显示 了 单 领域 CCSP 的 作业 流 。 网 格 服务 集 装 器 应 该 包括 分 配 的 资源 。 资 源 通过 服务 
包装 工具 提取 ， 并 包括 在 服务 集 装 器 中 ，S1 、S2 和 S3 分 别 代表 命令 行 软件 、 遗 留 程序 和 服务 请 
” 求 。 我 们 需要 使 用 作业 定义 工具 来 建立 作业 流 模型 。 因 为 作业 请 求 需要 以 SOAP 消息 的 形式 提 
交 ， 故 作业 管理 器 被 部 署 于 服务 集 装 器 中 。 453 


域 管理 器 网 格 监 控 器 | aug! 
| 信息 中 心 | | seers | 数据 管理 器 | 
网 格 | 安全 管理 器 网 格 开发 
门户 工具 包 

服务 集 装 器 | 


CGSP 系 统 模 块 























图 7-23 ChinaGrid 的 CGSP 库 中 的 功能 性 构建 块 ， 由 中 国清 华 大 学 开发 3] 


作业 管理 器 负责 作业 请 求 分 析 、 服 务 选择 和 作业 调度 ， 以 及 执行 管理 。 每 个 域 都 需要 部 署 服 
务 管理 器 ， 从 集 装 器 收集 服务 信息 来 支持 其 他 软件 模块 。 此 外 ， 每 个 域 必须 部 署 域 管理 器 ， 以 实 
现 用 户 管理 和 其 他 功能 。 最 后 ， 部 署 一 个 或 多 个 网 格 门户 ， 以 满足 不 同 专业 的 特殊 需求 。 门 户 开 
发 工具 能 够 帮助 用 户 开发 Web 应 用 ， 满 足 交 互 需 求 ， 并 能 被 部 署 在 门户 中 。 

当 一 个 应 用 被 部 署 后 ， 将 执行 图 7-24 所 示 的 8 个 步骤 。 更 多 细节 可 参阅 文献 [53]。 

1. 用 户 注册 ， 并 获取 由 ChinaGrid 认证 的 证 书 。 然 后 用 户 通过 安全 协议 (如 HTTPS) 登录 网 
格 门户 ， 经 由 门户 Web 应 用 与 网 格 系统 交互 。 

2. 如 果 有 必要 ， 用 户 上 传 计算 作业 /请 求 所 需 的 输入 数据 或 向 数据 管理 器 的 个 人 数据 空间 请 
求 数据 。 然 后 用 户 可 以 使 用 作业 定义 工具 定义 作业 〈 如 卫 ) 。 作 业 定义 接 下 来 将 传送 到 作业 管 
理 器 。 

3. 根据 存储 在 本 地 的 J 作业 的 执行 规律 ， 作 业 管理 器 在 信息 中 心 查询 可 用 服务 ， 并 帮助 完 
AUPE ML J1, 

4. 信息 中 心 使 用 “push/pul” 模 型 收集 服务 信息 。 通 过 维护 资源 视角 ， 它 可 以 返回 按照 一 
定 规律 排序 的 可 用 服务 列表 。 原 则 上 ， 信 息 中 心 将 返回 本 地 可 用 服务 ; 如 果 它 在 自己 的 域 中 找 不 
到 一 个 满足 需求 的 服务 ， 可 以 的 话 ， 它 将 查询 其 他 信息 中 心 ， 以 获得 更 多 的 可 用 服务 。 

5. 作业 管理 器 最 终 选择 服务 S2， 并 把 它 发 送 到 已 分 配 的 计算 节点 。 

6. 服务 集 装 器 接收 到 请 求 后 ， 需 要 使 用 数据 管理 器 提供 的 访问 接口 ， 在 统一 数据 空间 按照 
逻辑 文件 路 径 获 取 数 据 ， 然 后 执行 该 服务 。 454 

7. 作业 管理 器 不 断 收集 执行 过 程 中 的 服务 状态 ， 并 通过 门户 告知 用 户 这 些 信息 。 

8， 当 作业 完成 时 ， 服 务 集 装 器 将 把 计算 结果 移 至 数据 管理 器 中 的 个 人 数据 空间 。 
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理 员 资源 提供 商 开发 者 与 网 格 构 造 者 程序 员 
图 7-24 在 ChinaGrid 中 使 用 CGSP 的 作业 执行 队列 '” 


mm 


7.5 网 格 应 用 趋势 和 安全 措施 


在 最 后 一 节 ， 我 们 将 探讨 相关 理论 和 技术 的 研究 进展 ， 如 博弈 论 、 模 糊 信 任 模型 、 虚 拟 数据 
中 心 和 云 的 发 展 ， 预 测 网 格 计算 的 应 用 趋势 。 由 于 有 多 个 管理 机 构 的 用 户 和 资源 参与 到 一 个 网 
格 中 ， 所 以 我 们 不 仅 需要 防止 对 数据 和 资源 的 网 络 攻击 ， 还 应 该 协调 网 格 用 户 的 自私 性 以 及 移 
除 不 被 信任 的 用 户 。 
更 重要 的 是 ， 应 该 意识 到 网 格 应 用 中 的 安全 挑战 。 我 们 需要 为 网 格 计算 建立 一 种 信任 模式 。 
基于 南 加 州 大 学 GridSec HAA! ， 我 们 提出 了 一 些 网 格 安全 实施 方案 与 机 制 的 原则 ， 下 
面 将 具体 描述 关于 用 户 认 证 与 资源 访问 授权 问题 的 应 对 措施 。 


7.5.1 网 格 应 用 技术 融合 


网 格 计算 已 应 用 于 解决 科学 发 现 、 工 程 设 计 、 环 境 保护 和 政府 管理 领域 中 的 计算 密集 型 问 
题 。 虚 拟 网 格 使 用 志愿 计算 ， 用 于 解决 困难 的 学 术 和 数学 问题 。 在 商业 企业 中 ， 许 多 公司 使 用 网 
格 进行 药物 发 现 、 经 济 预 测 、 抗 震 分 析 、 电 子 商务 和 云 服 务 。 我 们 看 到 计算 、 通 信和 未 来 互联 网 
技术 相互 融合 的 这 一 趋势 。 在 下 文中 ,我们 首先 回顾 了 网 格 计算 的 理论 与 技术 。 在 此 基础 上 ， 我 
们 给 出 了 使 用 博弈 论 解决 P2P 和 网 格 用 户 自私 性 问题 的 一 个 例子 。 

7.5.1.1 相关 理论 与 技术 

网 格 技术 与 很 多 其 他 计算 概念 和 技术 相关 。 举 其 中 的 几 个 例子 : 云 、 集 群 、P2P、 并 行 处 理 
和 分 布 式 计 算 与 网 格 技术 的 发 展 密切 相关 。 其 他 的 领域 (如 边缘 计算 、 网 格 文件 系统 、 
e-Science 、 元 计算 、 科 学 工作 流 系 统 ) 和 语义 网 格 都 是 相关 的 。 表 7-9 列 出 了 一 些 对 未 来 网 格 的 
发 展 有 积极 意义 的 相关 理论 和 技术 ， 并 标注 了 其 所 在 的 章节 。 在 例 7. 11 中 ， 我 们 讨论 了 在 实践 
中 博弈 论 如 何 提升 网 格 性 能 。 


第 7 章 网 格 计算 系统 和 资源 管理 321 


表 7-9 网 格 计算 及 其 相关 理论 和 技术 


























理论 /技术 融合 趋势 及 相关 章节 
_ 云 和 网 格 技术 共享 一 些 公共 资源 和 基础 设施 。 它 们 在 高 科技 和 服务 行业 正 逐 渐 融 合 
云 计算 
(第 4~6 章 ) 
P2P 计算 志愿 者 网 格 计算 可 从 PP 计算 拓扑 中 获 益 (第 8 章 ) 
HP 和 HA 集群 系统 超级 计算 机 展示 多 种 网 络 平台 ， 并 不 局 限于 集中 式 MPP、 高 性 能 集群 或 者 高 可 用 性 集 
群 (第 2 章 ) 
通过 虑 把 心 、 云 和 超级 ey 
数据 中 心 自动 化 , eco 数据 中 心 、 云 和 超级 计算 机 之 间 的 界限 变 得 模糊 (第 3 章 、 第 4 章 和 第 
ea 模糊 理论 和 信誉 系统 可 被 用 于 网 格 、 云 或 任意 分 布 式 系统 的 信任 管理 (7.5.2 节 、 
模糊 理论 及 信誉 系统 me 5.3 Wane. 4!) ) 
博弈 论 优 化 ROR BR REN, 实现 双赢 优化 ， 并 避免 自私 行为 《 例 7.11 和 文 


7.5.1.2 技术 与 理论 融合 

许多 理论 和 数学 知识 ， 如 图 形 理论 、 模 糊 集 、 博 弈 论 等 ， 如 果 恰 当 应 用 这 些 理 论 ， 就 可 以 提 
高 计算 技术 。 例 如 ， 模 糊 集 与 信誉 系统 可 以 应 用 于 网 格 和 P2P AS PM. a E 
和 分 布 式 系 统 的 性 能 可 以 通过 优化 和 博弈 论 被 提升 :4 。 在 例 7.11 中 ， 我们 展示 了 如 何 使 用 博 
弈 论 实现 双赢 的 优化 结果 ， 以 及 如 何在 分 解 网 格 和 云 应 用 中 避免 自私 行为 。 456 

例 7.11 自私 网 格 和 博弈 论 解决 方案 

相 较 于 远程 和 未 知 用 户 提交 的 作业 ， 网 格 资源 拥有 者 倾向 于 给 予 本 地 或 信任 用 户 提交 的 调 
度 作 业 较 高 的 优先 级 。 采 用 这 种 行为 的 网 格 被 称 为 自私 网 格 。 使 用 自私 作业 调度 策略 的 网 格 ， 对 
于 未 知 用 户 而 言 ， 其 整体 网 格 性 能 或 服务 质量 将 下 降 ， 特 别 是 在 一 个 不 被 信任 的 网 格 用 户 社 区 
中 。 自 私 情况 的 描述 如 图 7-25 所 示 。 例 如 ， 资 源 站 点 1 执行 朋友 提交 的 作业 ， 但 不 接受 站 点 3 
中 敌人 提交 的 作业 。 站 点 2 拒绝 所 有 外 包 网 格 作 业 ， 或 者 随机 延迟 它们 。 站 点 4 鼓励 尽 可 能 多 地 
运行 外 包 作 业 。 这 些 行 为 将 破坏 网 格调 度 器 提供 的 负载 均衡 策略 或 公平 策略 。 
















第 1， 朋 友 一 接受 不 要 外 包 


允许 延迟 
第 2， 敌人 一 拒绝 运行 存在 一 定 风 险 


将 外 包 至 友好 站 点 


图 7-25 ”描述 自私 网 格 问题 和 博弈 论 解决 方案 的 概念 示例 

注 ， 由 Kwok、Hwang 和 Song[30] 提供 ，2007。 

这 就 是 整个 网 格 性 能 会 受到 影响 的 原因 所 在 。2007 Æ, Kwok, Hwang 和 Songts] 提 出 了 一 种 
博弈 论 方法 ， 用 于 解决 自私 问题 。 其 想法 是 将 网 格 资 源 分 配 建 模 为 多 个 参与 者 之 间 的 非 合 作 博 
弈 ， 因 此 ， 我 们 需要 提供 一 个 策略 ， 以 实现 所 有 参与 者 共 赢 的 情况 。 竞 争 相同 资源 池 的 所 有 用 户 
作业 必须 相互 协调 达到 纳什 均衡 ” ， 于 是 网 格 系 统 能 在 所 有 被 处 理 的 作业 中 实现 “ 半 优 化 ”天 
+H, fait NAS 基准 测试 程序 实验 展示 了 它 的 效率 ， 从 而 证 实 了 博弈 论调 度 策略 的 可 行 性 。 
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证 明 可 以 参见 文献 [30] 。 a 
7.5.2 网 格 负载 与 性 能 预测 

网 格 性 能 与 运行 在 参与 网 格 节点 的 大 量 处 理 器 上 的 集体 工作 负载 直接 相关 。 因 为 异 构 资 源 
高 度 分 布 于 不 同 组 织 的 控制 下 ， 所 以 预测 集体 网 格 工作 负载 是 一 个 非常 有 挑战 性 的 任务 。 网 格 
工作 负载 由 多 个 处 理 器 之 间 的 集体 负载 指标 表示 。 人 负载 指 标 X(t) 是 单位 时 间 区 间 [¢-1, t] 
内 处 理 器 的 使 用 率 ， 其 中 所 有 离散 时 间 : 均 为 非 负 整数 。 为 简单 起 见 ， 假 设 时 间 步 长 为 5 分 钟 。 
负载 指标 反映 了 网 格 中 所 有 处 理 器 的 CPU 利用 率 。 例 如 ，X(i) =0.45 意味 着 在 观察 期 ，45% 的 

[457] 处 理 器 忙 。 

传统 的 点 值 预测 方法 使 用 一 个 很 短 的 预测 窗口 。 尽 管 它 们 可 能 在 集中 式 计 算 机 系统 中 能 够 
很 好 地 预测 CPU 负载 ， 但 是 因为 长 执行 时 间 ， 它 们 在 大 规模 产品 网 格 中 不 能 很 好 地 工作 。 事 实 
上 ， 点 值 预测 很 难 在 一 个 长 时 间 框 架 中 覆盖 工作 负载 波动 。 一 般 来 说 ， 负 载 指标 用 于 评估 一 个 给 
定 的 计算 网 格 上 可 达到 的 峰值 性 能 百分比 。 这 样 的 网 格 管理 控制 台 可 以 监测 CPU 利用 率 。 

大 规模 网 格 基础 设施 的 工作 负载 管理 器 在 决定 正确 调度 方案 上 十 分 薄弱 ,这 影响 网 格 上 应 
用 的 执行 时 间 。 本 节 将 讨论 在 合理 的 置信 范围 内 ， 预 测 未 来 负载 。 预 测 范 围 越 罕 ， 预 测 的 精度 越 
高 。 长 期 负载 预测 不 可 避免 会 有 一 些 误差 ,但 是 我 们 在 置信 和 窗口 中 采用 超前 过 滤 技 术 ， 尽 量 减 小 
这 些 预 测 误差 。 

7.5.2.1 自 适 应 负载 预测 l 

在 图 7-26 中 ， 我 们 介绍 了 时 间 序 列 事 件 的 自 适 应 负载 预测 过 程 。 假 定 现在 的 时 间 为 上 ， 真 
实 的 负载 表示 为 一 系列 到 上 为 止 的 点 ， 只 需要 预测 上 之 后 的 未 来 负载 指标 。 传 统 的 预测 机 制 ， 
如 AR(p) 方法 ， 使 用 过 去 了 个 负载 信息 的 点 值 预测 未 来 负载 指标 。 预 测 点 在 图 7-28 表示 为 星 
形 。n 步 超前 过 程 使 用 历史 区 间 w 中 的 所 有 负载 数据 及 :之 后 时间 步 内 的 预测 负载 值 预测 负 
RHR AG +n) 。 由 于 负载 波动 ， 预 测 点 值 可 能 不 准确 ， 相 较 于 预测 点 值 ， 我 们 在 [X t+ 
n), X,(¢+n)} 范围 内 使 用 置信 和 窗口 预测 X(i+n)。 


。 历 史 真实 负载 值 HModel fil 
+ 预测 的 点 值 AHModel 







~ 100 预测 的 窗口 
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图 7-26 ”网 格 负载 的 自 适应 预测 ， 使 用 置信 窗口 获取 历史 负载 信息 并 计划 先行 窗口 的 负载 


本 节 将 介绍 两 个 法 国 网 格 上 的 负载 跟踪 ， 并 对 抽样 误差 进行 了 分 析 。 两 个 网 格 负载 跟踪 分 
别 来 自 法 国 的 AuverGrid 和 Grid’5000, AuverGrid 是 一 个 产品 网 格 ， 共 包含 5 个 集群 和 475 个 处 理 
器 ， 地 理 上 分 布 于 法 国 的 奥 弗 涅 区 域 。Grid'5000 是 一 个 实验 性 网 格 平台 ， 超 过 5 000 处 理 器 分 布 
于 法 国 的 9 个 站 点 。 网 格 负载 档案 (Grid WorkLoads Archive, GWA) 负责 收集 负载 跟踪 。 
7.5.2.2 Grid'S000 上 的 负载 跟踪 
根据 2006 年 的 跟踪 实验 ，Grid'5000 的 网 格 负载 跟踪 如 图 7-27 Bax. Grid’5000 的 作业 日 志 项 
包括 两 种 类 型 : 运行 成 功 的 和 失败 的 。 测 量 误 差 可 能 由 失败 的 作业 或 不 正确 的 作业 项 所 引起 。 
Grid'5000 的 平均 负载 是 10.6% 。 在 10 个 月 的 观察 期 内 ，Grid”5000 在 轻 负 载 和 平均 负载 左右 波 
动 。 我 们 收集 了 三 种 跟踪 : 在 这 些 性 能 预测 实验 中 ， 突 发 局 部 变化 的 跟踪 1、 突 发 水 平 变化 的 跟 
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踪 2 和 微量 水 平 变化 的 跟踪 3。 


7.5.2.3 
文献 [18] 





35 
30 
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图 7-27 Grid’5000 工作 负载 的 变化 (2006. 1—2006. 10) 


自 回 归 (AR) 方法 
和 文献 [46] 提出 了 一 种 自 回归 预测 方法 。 该 方法 应 用 负载 样本 的 时 间 序 列 X(t), 


根据 过 去 负载 数 据 序列 ， 估 计 AR 方法 使 用 的 系数 。 这 些 系数 被 用 于 预测 未 来 负载 序列 。AR 
预测 方法 由 时 间 1 处 的 X(t) = Dex -1) +e, E, HF p 是 跟踪 跨度 ， 称 为 预测 方法 的 
阶 。 第 一 项 根据 过 去 p 个 负载 值 的 加 权 和 给 定 一 个 目前 负载 指标 的 估计 值 。p 个 系数 lel 通 
过 训练 以 往 的 工作 负载 得 来 。e, 项 涵盖 时 间 : 的 噪声 。 

在 本 质 上 ，AR(P) 模型 基于 以 往 p TRR XG), X(t-1),…, X(e-p+1)} 利用 
系数 lpi, Pas e p) 预测 时 间 : 的 负载 指标 X(i+1)。AR(p) 方法 中 的 p 越 大 ， 预 测 的 





准确 度 越 高 。 该 AR 方法 需要 根据 以 往 负 载 指标 (i -i) ， 找 到 准确 的 系数 p,。 该 方法 假定 序 
F) X-i) 是 线性 的 和 不 变 的 ， 且 负载 序列 (1 -i) 应 该 具有 零 均 值 。 459 
7.5.2.4 负载 预测 的 再 模型 


混合 模型 (H-Model) 是 步 先行 负载 预测 方法 ， 具 体 描述 见 算法 7-1。 两 个 线性 数组 4,(i) 
AAG) 分 别 表示 置信 窗口 值 的 下 界 与 上 界 。 置 信 范 围 由 点 值 对 1X,(t), LO) RR, Yn 
步 先 行 置信 窗口 被 计算 后 Savitzky-Colay 过 滤器 用 于 平滑 该 置信 窗口 。 该 评估 在 内 核 AR(p) H 
算 中 的 历史 区 间 w 内 ， 检 查 不 同 的 跟踪 事件 跨度 p。 这 两 个 参数 ip, w) 对 预测 精确 度 有 很 大 影 
响 。 窗 口 大 小 w 的 最 优选 择 随 负载 变化 而 变化 。 


算法 7-1 置信 区 间 负 载 预测 的 混合 模型 


Input: AR model parameter p, workload index X(#),look-ahead span n, historical interval w 
Gutput: Confidence window {X(t+ n), Xu(t+ n)} for n-step look-ahead prediction 
Procedure: 


3. 


. Produce the refined workload index X(t); // using Kalman filter on workload index X(t) // 
2. 


Generate smoothed workload index X(#), 

/f using Savitzky-Golay filter on refined workload index X(D// 
Predict workload index series [X(t+ 1),.., X(t+ n)] 

//using Algorithm 9.1 on smoothed loads [X(t—p),.., X(D] // 
forall i=1 ton 

Form Ali) = smoothed load index [X(t- w+ 1),.., X(4)] 
followed by predicted load indices [X(t+ 1),.., X(t+/)] 


. Compute confidence window {X{t+ i), X,(t+ /)} of AC) to yield 


Axi) = Xát+ i) and A) =X (t+ i) 

endferall 

Generate smoothed As Ays //using Savitzky-Golay filter// 
Generate X(t+ n) =A,,(n), the lower end of confidence window 
Generate X (t+ n) =A,,(n), the upper end of confidence window 


ee eee  ĖŐĖŐ——— 
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跟踪 跨度 p 对 预测 误差 的 影响 较 小 。H 模型 中 的 固定 参数 值 不 能 够 准确 预测 。 置 信和 窗口 
C(t+n) 特征 为 +L/2， P L= |X (+n) -X,t +n) | Æ t +n 时 刻 预 测 的 置信 窗口 长 度 。e 
的 默认 值 为 5% 。 一 般 来 说 ， 当 为 一 个 较 小 或 适当 的 值 (时间 步 少 于 30) 时 ， 应 该 使 用 较 小 的 
历史 区 间 w。 置 信 窗 口 越 小 ， 产 品 网 格 环境 中 协助 任务 调度 的 机 会 或 者 负载 均衡 越 高 。 

7.5.2.5 适应 预测 机 制 (AH 模型 ) 

作为 HH 模型 的 扩展 ， 自 适应 混合 模型 (AH 模型 ) 利用 历史 区 间 ， 根 据 以 往 的 工作 负载 动态 
训练 与 验证 。 采 用 两 个 适应 量 描述 工作 负载 的 动态 变化 。 恰 当选 择 历 史 区 间 w 可 以 减少 预测 误 
差 。 其 目的 是 通过 训练 历史 窗口 ， 最 小 化 预测 误差 (MSE 或 均 方 误差 ) 。 

7.5.2.6 Grid’5000 系统 的 基准 测试 结果 

我 们 公布 了 在 AuverGrid 和 Grid’5000 中 实现 AH 模型 的 实验 结果 (图 7-28) AH 模型 两 种 实 
现 的 平均 MSE 与 最 好 的 AR 模型 对 比如 下 : AR 方法 在 两 台 机 器 上 产生 2% ~ 30% 的 MSE; 基于 
窗口 的 AH 模型 具有 最 低 的 MSE， 在 0.1% ~0.7% 之 间 。 与 混合 预测 机 制 H 模型 相 比较 ， 我 们 
进一步 展示 自 适应 预测 机 制 AH 模型 的 相对 性 能 。 为 了 简化 比较 ， 两 种 机 制 在 预测 中 均 提 供 了 置 
信和 窗口 的 中 值 。AuverGrid 和 Grid’5000 的 跟踪 实验 结果 如 图 7-28 所 示 。 
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LC) “最 佳 ”AR 模型 预测 
使 用 AH 模型 的 基于 窗口 预测 
EE 使 用 AH 模型 的 基于 中 值 窗口 的 预测 


图 7-28 AH 模型 两 种 实现 与 使 用 AR 模型 的 最 佳 MSE 比较 的 均 方 误差 
注 : Wu, Hwang, Yuan 和 ZhengI55] 提供 ， 2010。 


点 值 AR 方法 不 足以 在 计算 网 格 中 预测 工作 负载 ， 因 为 它们 不 能 够 在 长 期 执行 环境 中 覆盖 负 
载 的 变化 。 为 了 在 负载 波动 的 情况 下 评估 长 期 网 格 性 能 ， 我 们 提出 了 两 种 先行 工作 负载 预测 机 
制 ， 并 获得 了 很 好 的 实验 结果 ， 证 实 了 新 型 预测 机 制 的 有 效 性 。 其 主要 思想 是 扩展 点 值 至 置信 窗 
口 ， 动 态 适应 负载 的 变化 。 自 适应 通过 适应 历史 区 间 完 成 。 

7.5.3 网 格 安全 执行 的 信任 模型 

如 果 合 格 的 安全 机 制 不 在 恰当 的 位 置 ， 在 网 格 环境 中 ， 可 能 发 生 许 多 潜在 安全 问题 。 这 些 问 
题 包括 网 络 抓 包 、 失 控 访问 、 不 当 操 作 、 恶 意 操 作 、 本 地 安全 机 制 的 整合 、 委 托 、 动 态 资源 和 服 
务 、 攻 击 来 源 等 。 计 算 网 格 旨 在 许多 组 织 间 共 享 处 理 资源 ， 以 解决 大 规模 问题 。 事 实 上 ， 网 格 站 
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点 可 能 会 显示 不 可 接受 的 安全 条 件 和 系统 漏洞 。 

一 方面 ， 用 户 作 业 要 求 资源 站 点 通过 发 行 安全 需求 〈Security Demand, SD) 提供 安全 保障 。 
另 一 方面 ， 站 点 需要 展示 其 诚信 ， 称 为 信任 指数 (Trust Index，TI) 。 这 两 个 参数 必须 满足 安全 
保障 条 件 : 在 作业 映射 过 程 中 ，TI > SD。 在 确定 安全 需求 时 ， 用 户 通常 关心 一 些 基本 属性 。 这 
些 属性 及 其 数值 的 动态 变化 ， 在 很 大 程度 上 取决 于 信任 模型 、 安 全 策略 、 累 积 信誉 、 自 卫 能 力 、 
攻击 历史 和 站 点 漏洞 。 下 文 描述 了 建立 网 格 站 点 间 信 任 关 系 所 面临 的 三 大 挑战 *] 。 
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第 一 个 挑战 是 现 有 系统 与 技术 的 集成 。 网 格 中 的 资源 通常 是 异 构 和 自主 的 ， 期 望 单一 安全 
策略 能 够 兼容 和 适应 每 个 主机 环境 是 不 切实 际 的 。 与 此 同时 ， 现 有 站 点 上 的 安全 基础 设施 不 可 
能 在 一 夜 之 间 被 替换 。 因 此 ， 如 果 想 要 成 功 ， 网 格 安全 体系 结构 应 该 面临 集成 现 有 安全 体系 结构 
的 挑战 ， 并 在 平台 和 主机 环境 间 建 立 模型 。 

第 二 个 挑战 是 不 同 “主机 环境 ” 间 的 互 操作 性 。 服 务 通常 涉及 多 个 域 ， 并 且 需 要 彼此 之 间 
的 交互 。 在 协议 、 策 略 和 识别 级 别 ， 都 需要 相互 操作 。 所 有 这 些 级 别 的 相互 操作 必须 保证 安全 
性 。 第 三 个 挑战 是 构建 交互 主机 环境 的 信任 关系 。 网 格 服务 请 求 可 以 被 多 个 安全 域 中 的 联合 资 
源 所 处 理 。 在 端 到 端的 跨越 中 ， 这 些 域 需要 信任 关系 。 服 务 应 对 友好 和 感 兴趣 的 实体 开放 ， 这 样 
它们 可 以 安全 地 提交 请 求 和 访问 。 

实体 之 间 的 资源 共享 是 网 格 计 算 的 主要 目标 之 一 。 网 格 中 的 实体 在 彼此 相互 操作 之 前 ， 必 
须 建立 信任 关系 。 实 体 必须 选择 可 以 满足 其 信任 需求 的 其 他 实体 ， 并 与 之 协作 。 提 交 请 求 的 实体 
应 该 相信 资源 提供 商 将 尝试 处 理 它们 的 请 求 ， 并 依照 指定 的 服务 质量 返回 结果 。 两 种 信任 模型 
常用 于 建立 网 格 实体 间 的 合适 信任 关系 。 一 种 基于 PKI 模型 ， 主 要 利用 PKI 认证 与 实体 授权 ; 我 
们 将 在 下 一 节 讨论 这 些 。 另 一 种 基于 信誉 模型 。 

网 格 旨 在 通过 集成 分 布 的 、 异 构 的 和 自主 的 资源 ， 构 建 大 规模 网 络 计 算 系 统 。 网 格 面 对 的 安 
全 性 挑战 远 高 于 其 他 计算 系统 。 参 与 者 必须 在 任何 有 效 共享 和 协作 发 生 之 前 ， 建 立 相 互信 任 关 
系 。 否 则 ， 不 仅 这 些 参 与 者 不 愿 共享 他 们 的 资源 和 服务 ， 而 且 可 能 导致 很 多 损害 “| 。 

7.5.3.1 广义 信任 模型 

图 7-29 显示 了 通用 信任 模型 。 在 底层 ， 我 们 标识 了 影响 资源 站 点 诚信 的 三 个 主要 因素 。 推 
理 模 块 用 于 集成 这 些 因素 ， 下 面 是 一 些 现 有 的 推理 或 集成 方法 。 站 点 内 的 模糊 推理 过 程 需要 评 
估 防 御 能 力 和 直接 信誉 。 防 御 能 力 由 独立 资源 节点 的 防火 墙 、 入 侵 检测 系统 (IDS), 、 人 侵 响应 
能 力 和 防 病毒 能 力 决定 。 直 接 信誉 是 基于 作业 完成 率 、 站 点 使 用 、 作 业 周 转 时 间 和 作业 减速 比 决 
定 的 。 推 荐 信任 在 网 格 网 络 上 间接 获得 ， 也 称 为 二 次 信任 。 462 
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图 7-29 网 格 计算 的 通用 信任 模型 
注 : 由 Song, Hwang 和 Kwok[43] 344, 2005, 
7.5.3.2 基于 信誉 的 信任 模型 
在 一 个 基于 信誉 的 模型 中 ， 当 资源 站 点 的 信用 足以 满足 用 户 的 需求 时 ， 作 业 将 被 传送 至 该 
站 点 。 站 点 信用 通常 根据 以 下 信息 计算 得 出 : 防御 能 力 、 直 接 信誉 和 推荐 信任 。 防 御 能 力 指 的 是 
该 站 点 保护 自身 免 受 危害 的 能 力 ， 由 评估 人 侵 检测 、 防 火 墙 、 响 应 能 力 和 抵制 病毒 能 力 等 因素 得 
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来 。 直 接 信誉 基于 之 前 提交 至 该 站 点 的 作业 经 验 ， 通 过 多 种 因素 衡量 ， 如 先前 作业 执行 成 功率 、 
累计 站 点 利用 率 、 作 业 周 转 时 间 和 作业 减速 比 等 。 某 个 站 点 的 良好 体验 将 提高 它 的 信誉 。 相 反 ， 
一 次 负面 经 验 将 会 降低 站 点 的 信誉 。 

7.5.3.3 模糊 信任 模型 

TEREN pe, ， 用 户 程 序 提供 了 作业 安全 需求 。 资 源 站 点 的 信任 指数 (TI) 通过 所 有 相关 
参数 的 模糊 逻辑 推理 得 来 。 具 体 来 说 ， 可 以 使 用 两 级 模糊 逻辑 将 众多 信任 参数 集合 和 安全 属性 
估计 为 标量 ， 以 便 在 作业 调度 和 资源 映射 过 程 中 使 用 。 

TI 被 规范 为 单一 实数 ， 其 为 0 时 代表 站 点 处 于 最 高 风险 状态 ， 为 1 时 表示 没有 风险 或 者 完全 
信任 的 状态 。 模 糊 推理 由 以 下 4 个 步骤 组 成 : 模糊 化 、 推 理 、 聚 类 和 去 模糊 化 。 信 任 模型 的 第 二 
个 显著 特征 是 : 如 果 一 个 站 点 的 信任 指数 不 能 够 满足 作业 安全 需求 (例如 ，SD > TI) ， 那 么 该 信 
任 模型 可 以 推断 详细 安全 特征 ， 指 导 站 点 安全 升级 为 模糊 系统 。 

7.5.4 认证 与 授权 方法 

网 格 中 的 主要 认证 方法 包括 密码 、PKI 和 Kerberos。 密 码 是 识别 用 户 的 最 简单 方法 ， 但 也 是 
漏洞 最 多 的 。GSI 支持 的 PKI 则 是 最 受 欢 迎 的 方法 。 为 了 实施 PKI， 我 们 需要 可 信 的 第 三 方 ， 称 
为 证 书 授权 机 构 (Certificate Authority，CA) 。 每 个 用 户 使 用 唯一 的 公 钥 和 私 钥 对 ， 公 铀 由 CA 在 
识别 合法 用 户 后 颁发 ， 私 钥 只 限 单个 用 户 使 用 ， 且 对 其 他 用 户 是 未 知 的 。IEEE X. 509 数字 证 书 
包括 用 户 名 、 用 户 公 钥 、CA 名 ， 以 及 用 户 的 私下 签名 。 下 面 的 例子 展示 了 在 网 格 环境 中 PKI 服 
务 的 使 用 。 

例 7.12 在 GSI 中 使 用 代理 证 书 的 信任 委托 

PKI 用 于 网 格 中 的 不 够 强壮 的 用 户 认 证 。 在 图 7-30 的 场景 中 ， 一 系列 的 信任 委托 是 必需 的 。 
Bob 和 Charlie 都 相信 Alice, 18 Æ Charlie 不 相信 Bob。 现 在 ，Alice 向 Bob 提交 任务 Z。 任 务 Z 需 
要 Bob 的 许多 资源 ， 于 是 Bob 分 发 Z 的 一 个 子 任务 Y 给 Charlie。 因 为 Charlie 不 相信 Bob， 并 且 不 
确定 了 是否 真 的 是 来 自 Alice 原来 的 请 求 ， 于 是 Charie 拒绝 为 来 自 Bob 的 子 任务 Y 提供 资源 。 


4. 验 证 Alice 
RIEP 






3. 验 证 Alice 
的 证 书 


Charlie 








Charlie Charlie 
的 私 钥 ”的 证 书 





图 7-30 许可 GT4 网 格 环境 中 ， 使 用 PKI 服务 的 信任 委托 操作 链 上 的 多 方 交互 


为 了 使 Charlie 接受 子 任务 Y，Bob 需要 向 Charlie 展示 来 自 于 Alice 的 委托 证 明 。GSI 提出 了 
代理 证 书 的 解决 方法 。 代 理 证 书 是 由 用 户 生 成 的 临时 证 书 。 使 用 代理 证 书 有 两 个 优点 。 第 一 ， 代 
理 证 书 持 有 者 使 用 代理 证 书 ， 代 表 着 原始 用 户 或 委托 方 的 利益 。 一 个 用 户 可 以 暂时 委托 自己 的 
权限 至 代理 。 第 二 ， 由 于 信任 链 上 一 系列 的 证 书 ， 单 点 登录 能 够 实现 ， 这 是 因为 委托 方 (Alice) 
不 需要 在 信任 链 上 验证 远程 中 间 方 。 

代理 证 书 和 数字 证 书 的 唯一 区 别 是 代理 证 书 不 用 CA 签署 。 我 们 需要 了 解 CA 与 Alice 的 证 书 
以 及 Alice 的 代理 证 书 之 间 的 关系 。CA 证 书 首先 由 其 自己 的 私 钥 签 署 ，Alice 持 有 的 证 书 由 CA 
的 私 钥 签 署 ， 而 代理 证 书 由 其 自己 的 私 钥 签署 ， 并 发 送 给 她 的 代理 (Bob)。 在 委任 Alice 的 权限 
至 Bob 的 过 程 中 使 用 了 代理 证 书 。 

第 一 ， 代 理 证 书 的 生成 与 在 传统 PKI 中 生成 用 户 证 书 的 过 程 类 似 。 第 二 ， 当 Bob 代表 Alice 
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的 利益 时 ， 他 向 Charlie 发 送 请 求 的 同时 ， 也 一 起 传送 Alice 的 代理 证 书 和 该 Alice 和 证书。 第 三 ， 
在 获得 代理 证 书后 ，Charlie 确认 代理 证 书 是 由 Alice 签署 的 。 于 是 他 尝试 核实 Alice 的 身份 ， 并 
发 现 Alice 是 可 信赖 的 。 最 后 ，Charlie 接受 了 Bob 代表 Alice 发 送 的 请 求 。 这 就 是 所 谓 的 信任 委 
托 链 。 a 

7.5.4.1 访问 控制 授权 

授权 是 实施 共享 资源 访问 控制 的 过 程 。 决 定 可 以 在 服务 的 访问 点 或 者 集中 区 域 被 确定 。 典 
型 地 ， 资 源 是 一 个 提供 处 理 器 与 存储 的 主机 ， 服 务 可 部 署 于 其 之 上 。 基 于 一 系列 预定 义 政策 或 规 
则 ， 资 源 可 以 被 本 地 服务 强制 访问 。 中 央 管 理 机 构 是 一 个 特殊 的 实体 ， 可 以 制定 与 撤销 授予 远程 
访问 权限 的 规定 。 管 理 机 构 可 以 分 为 三 大 类 : 属性 管理 机 构 、 策 略 管 理 机 构 和 认证 管理 机 构 。 属 
性 管理 机 构 制 定 属性 断言 ， 策 略 管 理 机 构 制 定 授权 策略 ,认证 管理 机 构 发 布 证 书 。 授 权 服 务 器 做 
最 终 的 授权 决定 。 

7.5.4.2 三 种 授权 模型 

图 7-31 显示 了 三 种 授权 模型 。 其 中 主题 指 的 是 用 户 方面 ， 而 资源 指 的 是 机 器 方面 。 主 题 推 
动机 制 在 图 的 顶部 显示 。 用 户 首先 与 授权 机 构 握 手 ， 然 后 与 同一 队列 中 的 资源 站 点 握手 。 资 源 拉 
动 模型 把 资源 放 在 中 间 。 用 户 首先 检查 资源 ， 然 后 资源 联系 其 授权 机 构 以 验证 请 求 ， 在 接 下 来 的 
第 3 步 ， 授 权 机 构 将 会 授权 。 最 后 在 第 4 步 ， 资 源 接受 或 拒绝 来 自主 题 的 请 求 。 授 权 代 理 模 型 把 
授权 机 构 放 在 中 间 。 第 一 步 ， 授 权 机 构 检 查 主 题 ， 然 后 授权 机 构 作 出 请 求 访问 资源 的 决定 。 授 权 
过 程 在 第 3 步 和 第 4 步 按照 与 之 前 相反 的 方向 实现 。 


1 4 
2 3 
2 1 
3 4 
4 3 
1 2 


图 7-31 三 种 授权 模型 : 主题 推动 模型 、 资 源 拉动 模型 、 授 权 代理 模型 465 


7.5.5 网 格 安全 基础 设施 (GSI) 

尽管 网 格 越 来 越 多 地 被 部 署 ， 成 为 构建 动态 、 域 间 、 分 布 式 计算 和 数据 协作 的 通用 方法 ,但 
是 “在 不 同 服务 之 间 缺 乏 安全 /信任 ” 仍 是 网 格 所 面临 的 重要 挑战 之 一 。 网 格 是 具有 以 下 特性 的 
安全 基础 设施 : 便于 使 用 ; 符合 VO 的 安全 需求 ， 可 适应 于 每 个 资源 提供 商 站 点 的 政策 ， 提 供 所 
有 交互 的 合适 的 认证 与 加 密 。 

GSI 是 满足 这 些 需求 的 重要 环节 。 作 为 网 格 环境 中 著名 的 安全 解决 方案 ，GSI 是 Globus 
Toolkit 的 一 部 分 ， 为 支持 网 格 和 需要， 包括 支持 消息 保护 、 认 证 和 委托 、 授 权 ， 它 提供 了 基本 安全 
服务 。GSI 在 开放 网 络 上 实施 安全 认证 和 通信 ， 并 且 允 许 具 有 单 点 登录 能 力 的 分 布 式 站 点 间 的 相 
互 认 证 。 非 集中 管理 安全 系统 是 必要 的 ， 网 格 保持 其 成 员 本 地 政策 的 完整 性 。GSI 支持 消息 级 安 
全 ， 即 支持 WS-Security 标准 和 WS-SecureConversation 规范 ， 为 SOAP 消息 提供 消息 保护 ， 同 时 也 
支持 传输 级 安全 ， 这 意味 着 TLS 认证 支持 X, 509 代理 证 书 。 

7.5.5.1 GSI 功能 层 

GT4 提供 不 同 的 WS 和 预 WS 认证 和 授权 功能 。 这 两 种 功能 在 同一 基础 之 上 实现 ， 即 X. 509 
标准 及 实体 证 书 与 代理 证 书 ， 其 分 别 被 用 于 识别 持续 实体 ， 如 用 户 和 服务 器 ， 以 及 支持 向 其 他 实 
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体 授权 的 临时 委托 。 如 图 7-32 所 示 ，GSI 可 以 看 成 由 4 个 不 同 功能 模块 组 成 : 消息 保护 、 认 证 、 
委托 和 授权 。 


消息 级 别 消息 级 别 传输 级 别 
SAML & 网 格 映射 文件 


c] 


X.509 终 端 













网 格 映射 文件 


用 户 名 /密码 


授权 | SAML & 网 格 映射 文件 

<] 
委托 X.509 代 理 证 书 

4 


WS-Security 
WS-SecureConversation 


实体 证 书 





图 7-32 ”消息 和 传输 级 别 的 GSI 功能 层 
注 ; 更 多 的 细节 参见 Berman, Fox 和 Hey [5], Foster 和 Kesselman [15] ， 以 及 Foster [17]。 
TLS (Transport-Level Security ,传输 层 安全 ) 或 者 WS-Security 与 WS-Secure Conversation ( 消 
[466 | 息 级 ) 可 结合 SOAP 作为 消息 保护 机 制 。X 509 终端 实体 证 书 或 者 用 户 名 与 密码 作为 认证 证 书 ， 
X. 509 代理 证 书 和 WS-Trust 则 用 于 委托 。 一 个 授权 框架 允许 各 种 授权 方案 ， 包 括 “ 网 格 映射 文 
件 ”ACL。ACL 定义 为 服务 、 自 定义 授权 句柄 以 及 依据 SAML 协议 访问 授权 服务 。 此 外 ， 相 关 安 
全 工具 用 于 X. 509 证 书 的 存储 (MyProxy 与 委托 服务 ) GSI 与 其 他 认证 机 制 间 的 映射 (如 
Kerberos 的 KX509 和 PKINIT， 一 次 性 密码 的 MyProxy) ， 以 及 授权 的 信息 维护 (VOMS, GUMS, 
PERMIS) 。 

本 节 其 余部 分 回顾 了 每 种 功能 的 GT 实现 和 在 这 些 实现 中 使 用 的 标准 、GT4 的 Web 服务 部 分 
使 用 SOAP 作为 其 通信 的 消息 协议 。 消 息 保护 可 以 由 传输 级 安全 提供 ， 即 在 TLS 上 传输 SOAP 消 
AB, 或 者 由 消息 级 安全 提供 ,使 用 WS-Security 标准 签署 和 加 密 部 分 SOAP 消息 。 在 本 节 中 ， 我 
们 描述 了 这 两 种 方法 。 

7.5.5.2 传输 级 安全 

传输 级 安全 限制 SOAP 消息 只 能 在 TLS 保护 的 网 络 连 接 上 传输 。TLS 提供 了 完整 的 保护 与 私 
隐 (通过 加 密 ) 机 制 。 传 输 级 安全 通常 与 X. 509 一 起 用 于 认证 ， 但 也 可 以 单独 用 于 提供 无 需 认 
证 的 消息 保护 ， 称 为 “匿名 传输 级 安全 ”。 在 这 种 操作 模式 下 ， 认 证 可 以 通过 SOAP 消息 中 的 用 
户 名 与 密码 完成 。 

7.5.5.3 消息 级 安全 

GSI 还 提供 了 消息 级 安全 ， 通 过 实施 WS-Security 标准 和 WS-SecureConversation 规范 ， 对 
SOAP 消息 进行 保护 。OASIS 的 WS-Security 标准 定义 了 一 个 框架 ， 为 独立 SOAP 消息 提供 安全 保 
护 ; WS-Secure Conversation 是 由 IBM 和 微软 提出 的 标准 ， 通 过 消息 的 初始 交换 来 建立 安全 的 上 下 
文 环境 ， 其 可 以 以 某 种 方式 保护 需要 较 少 计算 开销 的 后 续 消息 ( 即 为 了 建立 消息 开销 较 低 的 会 
话 ， 它 允许 初始 开销 的 交换 ) 。 

GSI 符合 该 标准 。GSI 采用 这 些 机 制 在 消息 令 牌 基础 上 提供 安全 保护 ， 也 就 是 说 ， 在 发 送 者 
与 接收 者 之 间 (在 共享 一 些 信任 根 集合 之 外 ) 的 独立 消息 中 没有 任何 预先 存在 的 上 下 文 环境 。 
GSI 同时 允许 X. 509 公 钥 证 书 和 用 户 和 名 与 密码 联合 认证 ， 这 将 在 后 续 有 关 认 证 的 章节 进一步 描 
述 ; 然而 ， 两 者 之 间 仍 有 区 别 。 使 用 用 户 名 /密码 ， 只 能 使 用 WS-Security 标准 认证 ; 也 就 是 说 ， 
一 个 接收 者 可 以 确认 通信 发 起 者 的 身份 。 i 

GSI 还 允许 三 种 额外 的 保护 机 制 。 第 一 种 是 完整 保护 ， 接 收 者 确认 来 自发 送 者 的 消息 在 传输 
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过 程 中 未 发 生 改 变 。 第 二 种 是 加 审 ， 保 护 消息 以 提供 机 密 性 。 第 三 种 是 重播 预防 ， 接 收 者 能 够 确 
认 它 之 前 没有 收 到 相同 的 消息 。 这 些 保 护 被 提供 在 WS-Security 和 WS-Secure Conversation 之 间 ， 
之 前 的 操作 提供 了 与 发 送 者 和 接收 者 的 K. 509 证 书 相关 的 密 钥 。 该 X. 509 证 书 常 被 用 于 建立 会 
话 密 钥 ， 用 来 提供 消息 保护 。 467 

7.5.5.4 认证 与 委托 

GSI 通过 X. 509 证 书 和 公 钥 支持 认证 和 委托 。 作 为 一 个 GT4 中 的 新 特性 ，GSI 也 将 简单 的 用 
户 名 和 密码 作为 部 署 选项 ， 用 来 支持 认证 。 我 们 在 本 节 中 讨论 这 两 种 方法 。GSI 使 用 X. 509 证 书 
识别 持续 用 户 和 服务 。 

作为 GSI 认证 中 的 一 个 核心 概念 ， 证 书包 括 4 个 基本 信息 : (1) 主题 名 称 ， 识 别 证 书 所 代表 
的 个 人 或 对 象 ; (2) 属于 该 主题 的 公 钥 ; (3) 签署 证 书 的 CA 标识 ， 确 保 公 钥 和 标识 均 属于 该 
主题 ; (4) 名 为 CA.X. 509 的 数字 签名 为 每 个 实体 提供 唯一 标识 符 〈 如 一 个 与 众 不 同 的 名 字 ) 
和 断言 该 标识 符 属 于 其 他 方 的 方法 ， 该 方法 使 用 了 通过 证 书 绑 定 至 标识 符 的 非 对 称 密 钥 对 。GSI 
使 用 的 K. 509 证 书 符 合 相 关 标 准 和 惯例 。 世 界 网 格 部 署 基 于 第 三 方 软件 发 布 供 GSI 和 Globus 
Toolkit 使 用 的 X. 509 证 书 ， 建 立 了 自己 的 CA。 

由 于 标准 X. 509 代理 证 书 的 使 用 ，GSI 也 允许 委托 和 单 点 登录 。 代 理 证 书 使 得 X. 509 的 持 有 
者 可 以 将 它们 的 权限 临时 授予 其 他 实体 。 为 了 认证 和 授权 ，GSI 平等 对 待 证 书 与 代理 证 书 。 可 以 
在 传输 级 安全 的 情形 下 通过 TLS 完成 X. 509 证 书 认证 ， 也 可 以 在 消息 级 安全 的 情形 下 通过 Ws- 
Security 规定 的 签名 实现 X. 509 证 书 认 证 。 

例 7.13 双方 的 相互 认证 

相互 认证 的 过 程 如 下 : 基于 证 书 和 签署 了 彼此 证 书 的 CA 的 信任 ， 拥 有 CA 签署 证 书 的 双方 
向 对 方 证 明 他 们 正 是 他 们 所 说 的 人 。GSI 为 相互 认证 协议 提供 了 安全 套 接 字 层 (Secure Sockets 
Layer ，SSL) ， 如 图 7-33 的 描述 所 示 。 为 了 相互 验证 ， 第 一 个 人 (Alice) 建立 到 第 二 个 人 
(Bob) 的 连接 ， 开 始 认证 过 程 。 


认证 请 求 : EEC ( Alice ) -ID， © 
AA, CA 
挑战 性 消息 加 密 | 


| 加 密 的 挑战 性 消息 | 










检验 有 效 
使 用 私 钥 加 密 


| EEC ( Bob ) -ID, 公 钥 , CA 





图 7-33 ”相互 认证 机 制 中 的 多 次 握手 
注 ; 由 Foster 和 Kesselman[L151 提供 ，2002 。 


Alice 给 予 Bob 她 的 证 书 。 该 证 书 告诉 Bob, Alice 自称 为 谁 (认证 )、Alice 的 公 钥 是 什么 ， 
以 及 哪个 CA 被 用 于 验证 证 书 。 Bob 将 首先 通过 检验 CA 的 数字 签名 来 确定 证 书 是 有 效 的 ， 确 保 


330 ”第 三 部 分 网 格 、P2P 和 未 来 互联 网 


468 


该 CA 实际 签署 了 该 证 书 以 及 此 证 书 没有 被 伪造 。 一 旦 Bob 验证 了 Alice 的 证 书 ，Bob 必须 确保 
Alice 确实 是 通过 证 书 验证 的 人 。 

Bob 随机 生成 一 则 消息 并 传送 至 Alice， 让 Alice 加 密 它 。Alice 使 用 她 的 私 钥 加 密 此 消息 ， 并 
传 回 至 Bob, Bob 使 用 Alice 的 公 钥 解密 该 消息 。 如 果 这 一 结果 与 原始 的 随机 消息 相同 ，Bob 确认 
Alice 所 说 的 。 现 在 ，Bob 信任 Alice 的 身份 ， 需 要 反方 向 执行 相同 的 操作 。Bob 传送 Alice 他 的 证 
书 ， 接 下 来 Alice 验证 证 书 并 传 回 具有 挑战 性 的 消息 ， SH ws, Bob 加 密 该 消息 并 传送 至 
Alice, Alice 解密 它 并 与 原来 的 消息 比较 ， 如 果 相 匹配 ， 则 Alice 承认 Bob 所 说 的 。 a 

7.5.5.5 信任 委托 

当 一 些 网 格 被 使 用 或 者 代表 用 户 的 代理 (本 地 或 远程 ) 请 求 服 务 时 ， 为 了 减少 甚至 避免 用 
户 必须 输入 密码 的 次 数 ，GSI 提供 委托 功能 与 委托 服务 ， 提 供 了 客户 端 委托 (MER) K. 509 代 
理 证 书 至 服务 的 接口 ， 此 服务 的 接口 基于 WS-Trmust 规范 。 一 个 代理 由 新 证 书 和 私 钥 组 成 。 代 理 
使 用 密 钥 对 ， 也 就 是 说 ， 骨 人 证 书 的 公 铀 和 私 钥 ， 可 以 根据 每 个 代理 再 生 或 者 以 其 他 方式 获得 。 
新 证 书包 含 所 有 者 的 身份 ， 经 过 稍 许 修改 以 表明 它 是 一 个 代理 。 新 证 书 是 由 所 有 者 签署 ， 而 不 是 
CA (如 图 7-34 所 示 ) 。 





图 7-34 信任 委托 链 ， 其 中 新 证 书 由 所 有 者 签署 ， 而 不 是 CA 


该 证 书 也 包括 时 间 记 录 ， 在 此 之 后 代理 不 再 被 其 他 方 接受 。 代 理 只 有 有 限 的 生命 周期 。 因 为 
代理 不 能 长 期 有 效 ， 它 没有 必要 和 所 有 者 私 钥 所 处 位 置 一 样 安全 ， 因 此 在 本 地 存储 系统 中 ， 存 储 
没有 加 密 的 私 钥 是 可 能 的 ， 只 要 文件 的 权限 很 容易 地 防止 其 他 人 的 访问 。 一 旦 代理 被 创建 和 在 
储 ， 用户 可 以 使 用 代理 证 书 和 私 钥 相互 认证 ， 而 不 用 输入 密码 。 当 使 用 代理 时 ， 相 互 认证 的 过 程 
也 有 一 些 不 同 。 远 程 方 不 仅 接收 代理 证 书 ( 由 所 有 者 签署 )， 还 需要 所 有 者 证 书 。 

在 相互 认证 的 过 程 中 ， 所 有 者 的 公 钥 (从 她 的 证 书 获得 ) 用 于 验证 代理 证 书 上 的 签名 。 接 
FÆ, CA 公 钥 用 于 验证 所 有 者 证 书 上 的 签名 。 这 通过 连续 的 资源 所 有 者 建立 了 从 CA 到 最 后 代 
理 的 信任 链 。GSI 使 用 WS-Security， 以 及 文本 用 户 名 与 密码 。 这 一 机 制 支 持 更 多 基础 的 Web 服务 
应 用 。 当 使 用 用 户 名 和 密码 时 ， 相 对 于 X. 509 证 书 ，GSI 提供 认证 , 但 是 却 没有 先进 的 安全 特 
征 ， 如 委托 、 机 密 性 、 完 整 性 和 重播 预防 。 然 而 ， 可 以 在 匿名 传输 级 安全 ， 如 非 验 证 TLS， 使 用 
用 户 名 和 密码 来 确保 隐私 。 


7.6 参考 文献 与 习题 


网 格 计算 的 介绍 可 以 参见 文献 [6，12，36，5$2 ]。 网 格 计算 的 综合 处 理 可 参见 Foster 和 
Kesselman[15] 以 及 Berman, Fox 和 Hey[5]。Foster 等 人 501 链接 网 格 至 虚拟 组 织 。 网 格 核心 技术 
参见 文献 [18，41] 。0GSA 标准 的 说 明 见 文献 [5] Globus 项 目的 相关 报道 见 文 献 [1，15，17] 。 
网 格 资 源 管理 系统 的 相关 总 结 见 文献 [29，49] 。 网 格 作业 调度 和 资源 中 介 可 以 参考 文献 [4，25， 
30，44，49]。 网 格 中 资源 发 现 发 表 于 Shen 和 Hwang[40] 以 及 Zhang 和 Schopf[ 59 ] 。 纳 什 均衡 
由 Nash[ 35] 提出 。 

网 格 监控 和 记 账 系统 可 以 参见 文献 [2，10] 。 网 格 经 济 模型 由 Buyya ÆA Ao BOINC 的 
相关 内 容 可 参见 文献 [7] Folding@ Home 参见 文献 [14] ，SETI 参见 文献 [39] 。Ferreira 等 人 回顾 
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了 研究 和 教育 中 的 网 格 计算 "" 。 网 格 Dacenter 在 文献 [37] 中 有 所 研究 。TeraGrid 在 文献 [5] 的 第 
1 章 中 介绍 ， 其 中 DataGrid’ 38 15 章 和 第 16 章 也 有 涉及 。e-Science 网 格 在 文献 [21] 与 文献 
[5] 中 的 第 36 章 被 讨论 。Grid'5000 在 文献 [55] 中 被 评估 。 网 格 性 能 于 文献 [32，34，55 ] 介 绍 。 
网 格 性 能 预测 由 Wu 等 人 "5 公布。ChinaGrid 由 Jin, Wu 等 人 在 文献 [20，26，54] 中 发 布 。 中 国 
Vega 网 格 在 Wang 等 人 [50] 和 Xu 等 人 [57] 报 道 。CCSP 由 Wu Al) 发布。 

信任 管理 和 网 格 安全 在 文献 [3，23 ，34，44 ,51] 介 绍 。Condor 在 文献 [47] 和 文献 [5] 的 第 
11 章 分 布 式 计算 中 介绍 。Gridhus 中 介 系 统 由 Buyya $A HH, Sun Grid Engine 可 参考 文献 
[45]. ChinaGrid 用 于 网 格 监控 的 CGSV 中 间 件 由 Zheng A 报道。 网 格 安全 和 信任 管理 在 文 
献 [30，34，42 ~44] 中 有 所 研究 。 网 格 软 件 工具 与 网 格 操作 系统 支持 的 额外 介绍 可 以 参见 文献 
[1，10，17，28，50] 。 可 扩展 计算 系统 的 相关 的 早期 工作 可 以 参考 Dongarra 等 人 [11] 、Taylor 
[46] 以 及 Xu 和 Hwang[22]。 不 同 的 网 格 应 用 在 文献 [4, 5，7，15，18，48] 中 有 介绍 。 
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习题 

7.1 考虑 下 面 列 表 中 的 资源 配置 、 代 码 文 件 、 数 据 传输 和 典型 网 格 实验 中 执行 的 计算 作业 。 现 在 要 求 你 在 
可 用 计算 网 格 上 执行 一 个 典型 的 作业 。 讨 论 在 你 的 平台 上 ， 该 网 格 资源 管理 系统 所 控制 的 资源 项 目 。 
Globus GT4 或 者 CGSP 均 为 备 选 系统 。 
a 和 启动、 监测 和 控制 合成 进程 的 执行 
b. 安置 并 获取 文件 

. 相关 负载 信息 : 目前 负载 和 队列 状态 

. 资源 分 配 至 网 络 传输 

. 资源 提前 预定 

网 络 特征 与 负载 

. 相关 负载 信息 ; 可 用 空间 与 带宽 利用 率 

. 版 本 源 和 目标 代码 

7.2 简 述 在 Globus GT4 中 间 件 库 中 实施 的 软件 模块 GRAM, Nexus, GSI, MDS 和 GASS 的 功能 。 尝 试 描述 
一 个 使 用 5 个 功能 模块 之 一 的 示例 应 用 。 

7.3 下 列 问 题 与 网 格 计算 的 GT4 或 CGSP 中 间 件 工具 相关 ， 只 有 一 个 正确 答案 。 解 释 你 作出 解释 的 原因 。 
重申 一 下 ， 这 些 特征 CGSP 并 不 支持 。 
a. 由 WSRF 支持 的 网 格 工作 流 
ob. 使 用 通用 运行 服务 ， 提 交 JSDL 作业 和 运行 遗留 作业 
c. 使 用 虚拟 数据 库 和 虚拟 表 的 异 构 集 成 
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7.4 


7.5 


7.6 


7.7 


7.8 


7.9 


7.10 


7.11 


d， 多 元 本 地 调度 器 支持 ， 包 括 PBS, LSF 和 Condor 

验证 图 7-30 中 的 双方 (Bob 和 Alice) 代理 证 书 需 要 4 个 步骤 。 扩 展 该 信任 委托 机 制 至 三 方 (比如 增 
加 John) 。 画 一 张 与 图 7-30 相似 的 图 ， 来 表示 在 GT4 网 格 中 的 所 有 证 书 检 查 操作 。 

在 例 7. 11， 你 已 经 了 解 处 理 网 格 自私 问题 的 博弈 论 方法 的 基本 概念 。 现 在 ， 要 求 你 阅读 Kwok, Hwang 
Al Song [30] 的 原文 ， 了 解 博弈 论 和 NAS 验证 实验 的 相关 细节 。 讨 论 博弈 论 解 决 方案 的 优点 及 其 在 真 
实 网 格 环境 中 的 实施 要 求 。 

比较 三 种 性 能 预测 方法 : 7.5.2 节 中 提出 的 AR(p)、 五 模型 和 AH 模型 。 讨 论 在 网 格 工作 负载 特征 和 性 
能 预测 中 它们 的 相对 优势 和 局 限 性 。 评 价 在 预测 过 程 中 使 用 Savitzky-Colay 滤波 和 Kalman 滤波 的 优点 。 
学 习 7.3.4 节 的 Gridbus 中 介 系 统 。 尝 试 使 用 该 系统 在 现 有 网 格 或 云 平台 上 调度 多 任务 应 用 作业 。 记 录 
实验 设置 和 获得 的 性 能 结果 。 讨 论 Gridbus 系统 的 优势 和 缺点 。 

访问 BOINC 网 站 : http;//boinc@ berkeley. edu， 并 注册 你 的 台式 计算 机 或 个 人 电脑 ， 使 之 成 为 一 个 贡献 
者 机 器 。 加 和 人 列表 中 的 某 个 网 格 应 用 项 目 ， 获 得 关于 志愿 者 计算 的 具体 经 验 。 记 录 你 的 研究 发 现 并 讨论 
获得 的 实验 结果 。 评 价 相 对 于 传统 HPC 系统 ， 使 用 虚拟 网 格 平台 的 优点 ， 并 指出 缺点 和 遇 到 的 限制 。 
将 左边 的 7 个 缩写 术语 与 系统 模型 和 右边 的 描述 进行 配对 。 只 要 在 每 个 术语 前 的 下 划 线 处 填 人 选项 
(a，b，e，…，8g) 。 这 是 一 对 一 的 关系 映射 。 





__ OGSA (a) 提供 一 系列 定义 明确 接口 的 Web 服务 

0GSI (b) 全 局 唯一 资源 标识 符 ， 可 区 别 特 定 网 格 服务 实例 ， 但 是 没有 特定 协议 或 实例 信息 ， 
例如 网 络 地 址 或 支持 的 协议 绑 定 

— WSRF (ce) 真实 的 社区 标准 ， 基 于 两 种 基本 技术 〈Globus Toolkit 和 Web 服务 ) 构建 ， 支 持 通 
过 标准 接口 和 约定 创建 、 终 止 、 管 理 和 诱发 状态 、 瞬 时 服务 ,动态 管理 实体 及 其 
生命 周期 


—— Grid Service (d) 网 格 服务 实例 的 单一 抽象 ， 封 装 了 与 特定 服务 实例 交互 所 需 的 以 及 可 能 在 服务 的 
生命 周期 中 会 发 生变 化 的 全 部 实例 信息 


— CSH (e) 面向 服务 网 格 的 第 一 个 实现 规范 ,定义 了 使 用 网 络 服务 描述 语言 《WSDL) 和 
XML 机 制 的 一 套 规 范 与 扩展 ， 允 许 有 状态 的 Web 服务 

— GSR (f) Web 服务 和 有 状态 资源 的 组 成 ， 即 (i) 表示 了 XML 文档 与 定义 Web 服务 端口 类 
型 的 关联 , Gi) 根据 隐 合 的 资源 访问 模式 进行 寻 址 与 访问 ，WS-Addressing 端点 引 
用 的 传统 使 用 


WS-Resource (g) 一 系列 Web 服务 规范 与 约定 ， 旨 在 规范 表示 ， 并 访问 分 布 式 环境 中 的 有 状态 资源 











学 习 网 格 系统 : 7. 2 节 示 例 中 的 ECEE、Grid'3000 、DataGrid 、ChinaGrid ， 选 择 一 个 示例 系统 ， 并 从 网 
站 和 发 布 的 论文 中 获取 关于 它 的 更 多 细节 。 找 出 其 更 新 系统 开发 中 的 原始 研究 。 指 出 发 现 的 开放 性 问 
题 ， 并 在 你 的 研究 发 现 中 记录 下 来 。 

本 题 需要 在 任意 你 访问 过 或 可 设 定 一 个 研究 组 的 GT 和 网 格 平台 上 ， 运 行 分 布 式 程序 (MPI 代码 ) 。 写 
一 份 报告 ， 说 明 使 用 Globus 工具 设置 网 格 实验 的 过 程 。 记 录 经 验 教 训 以 及 获得 的 性 能 结果 。 

如 图 7-35 所 示 ， 描 述 在 使 用 Globus 网 格 安全 基础 设施 和 PKI 的 网 格 中 ， 如 何在 用 户 A 和 了 双方 之 间 
实施 相互 认证 。 你 需要 描述 B 验证 A 身份 的 5 个 握手 步骤 。 假 设 可 信 证 书 颁发 机 构 (CA) 可 以 发 布 
X. 509 证 书 ， 该 证 书包 含 任何 网 格 用 户 需 要 的 公 钥 。 每 个 用 户 都 可 以 使 用 他 的 私 钥 加 密 信息 。 接 收 端 
可 以 使 用 发 送 者 的 公 钥 解密 该 信息 。 反 过 来 ,用户 A 可 以 通过 完全 相同 的 过 程 验证 B 的 身份 。 你 不 
需要 重复 这 个 相反 的 过 程 。 





图 7-35 使 用 GSI 和 由 CA 颁发 的 X. 509 证 书 的 双方 相互 认证 


第 7 章 网 格 计算 系统 和 资源 管理 ”335 


7.13 ”填写 表 7-10 的 空白 处 ， 以 区 分 POP 网 络 、 网 格 和 P2P 网 格 。 部 分 信息 已 经 给 出 。 你 可 能 要 回顾 表 
1-3、 表 1-5 和 表 1-9 的 信息 。P2P 和 PP 网 格 系统 的 更 多 相关 资料 可 以 参见 第 8 章 。 


表 7-10 P2P 网 络 、 网 格 和 P2P 网 格 的 比较 
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7.15 


特 tE 


系统 控制 与 服务 模型 


系统 连通 性 


资源 发 现 与 作业 管理 


P2P 网 络 


网 格 系统 


P2P 网 格 











点 可 作为 客户 滑 和 服 和 路 | 


应 用 程序 与 节点 角色 | 节点 均 可 作为 客户 端 和 服务 器 





在 P2P 网 格 中 基于 策略 
的 控制 ， 所 有 服务 来 自 容 
户 端 机 器 








网 格 资源 上 具有 高 
速 链接 的 静态 连接 











自治 节点 无 需 发 现 ， 没 有 中 


央 作 业 调度 器 





典型 系统 








NSF TeraGrid, UK 
EGGE Grid, ChinaGrid 





| 





这 是 一 个 关于 PP 网 格 或 志愿 者 计算 网 格 的 调查 问题 ， 这 些 网 格 可 以 加 入 贡献 主机 。 比 较 你 使 用 过 
的 志愿 者 网 格 的 相对 人 性能。 讨论 它们 在 硬件 性 能 、 软 件 支持 和 中 间 件 服务 上 的 优势 和 缺点 。 

尝试 虚拟 化 习题 78、 习题 7. 13 或 习题 7. 14 中 的 部 分 资源 。 采 用 虚拟 机 ， 选 择 回答 3 个 问题 之 一 。 
讨论 使 用 虚拟 化 产品 网 格 的 得 失 。 你 也 可 以 使 用 EC2 或 者 其 他 虚拟 化 数据 中 心 进行 所 需 实验 。 
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对 等 计算 和 覆盖 网 络 


本 章 研究 对 等 (P2P) 网 络 及 其 应 用 。P2P 覆盖 网 络 是 构建 于 互联 网 上 的 虚拟 网 络 ， 由 大 量 
的 边缘 客户 端 计 算 机 组 成 。 本 章 首先 介绍 非 结构 化 覆盖 网 络 、 结 构 化 覆盖 网 络 和 混合 覆盖 网 络 
的 基本 概念 和 属性 ; 其 次 研究 分 布 式 哈 希 表 (DHT) 的 快速 路 由 和 邻近 性 保存 操作 ; 然后 讨论 
P2P 网 络 的 容错 和 抗 扰动 技术 ， 从 而 提高 可 靠 性 。P2P 网 络 已 被 广泛 应 用 于 分 布 式 文件 共享 和 内 
容 分 发 中 。 针 对 这 些 应 用 ， 本 章 最 后 研究 基于 信誉 系统 和 内 容 污染 技术 的 信任 管理 和 版 权 保护 
方法 。 此 外 ， 本 章 通 过 例子 来 说 明 P2P 网 络 的 设计 原理 和 P2P 协议 在 实际 系统 中 的 应 用 。 基 于 
P2P 的 社会 网 络 将 在 第 9 章 介 绍 。 


8.1 P2P 计算 系统 


PP 计算 系统 已 被 广泛 应 用 于 分 布 式 文件 共享 、 消 息 传递 、 在 线 聊 天 、 流 媒体 和 社会 网 络 
中 。 据 统计 ，2008 年 至 2010 年 期 间 ， 互 联网 流量 的 40% ~70% 是 由 P2P 应 用 贡献 的 。 考 虑 到 在 
线 应 用 (如 Facebook, Twitter 和 YouTube 等 ) 越 来 越 受 欢迎 ，P2P 流量 将 会 进一步 增加 。 与 传统 
的 分 布 式 系统 不 同 ，P2P 网 络 是 由 分 布 在 互联 网 边缘 的 节点 (peer) 或 客户 端 自由 组 成 的 自治 和 自 
组 织 系统 。 在 PP 网 络 中 ， 节 点 之 间 共 享 计 算 和 数据 资源 ， 所 有 节点 按照 自愿 的 方式 共同 提供 丰富 
的 在 线 服务 。P2P 网 络 一 方面 具有 经 济 优势 ， 另 一 方面 却 存在 法 律 上 的 问题 (如 盗版 等 ) 。 

图 8-1 按照 应 用 类 型 给 出 了 互联 网 流量 随时 间 的 变化 趋势 。 电 子 邮件 (E-mail) 流量 所 占 比 


互联 网 流量 百分比 
A 
© 
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图 8-1 基于 应 用 趋势 的 互联 网 流量 分 布 
注 ; 摘自 CacheLogic Research, 2007, 
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例 较 小 ， 而 且 随 时 间 在 逐步 减少 ; 而 FTP 流量 所 占 比例 却 在 过 去 15 年 间 大 幅 下 降 。 互 联网 流量 
的 主要 增长 是 由 P2P 请 求 和 响应 造成 的 ， 而 由 于 社会 网 络 和 数字 内 容 下 载 的 增加 ，Web 流量 有 
一 定 程度 的 减少 。 在 2007 年 ，70% 的 互联 网 流量 是 由 P2P 应 用 产生 的 。P2P 应 用 的 流行 和 P2P 
流量 的 增长 是 本 章 深入 研究 PP 系统 的 重要 原因 。 

8.1.1 P2P 计算 系统 的 基本 概念 

对 于 端 到 端 通信 来 说 ， 如 果 两 个 端 用 户 在 功能 上 是 对 等 、 相 同 的 ， 那 么 就 可 以 认为 该 通信 是 
P2P 通信 。 按 照 这 个 定义 ， 时 期 的 分 布 式 系统 都 可 以 认为 是 对 等 模式 的 。P2P 技术 利用 互联 网 边 
缘 节 点 空闲 的 计算 资源 (如 存储 、CPU 和 带宽 ) 和 内 容 资源 (如 内 容 文件 ) 来 完成 大 规模 任务 ， 
比如 大 规模 内 容 分 发 、 分 布 式 搜 索引 擎 和 CPU 受 限 的 计算 任务 等 。 

因为 网 络 边 缘 节 点 上 的 资源 (计算 资源 和 内 容 资 源 ) 在 任意 时 刻 都 可 能 增加 和 移 除 ， 所 以 
P2P 网 络 中 的 资源 是 间断 性 可 用 的 。P2P 计算 无 需 中 央 服 务 器 的 协调 ， 没 有 一 个 节点 拥有 全 局 的 
视图 ， 每 个 节点 都 只 有 系统 的 部 分 视图 。 节 点 既 作 为 服务 器 向 其 他 节点 直接 提供 服务 ， 又 作为 客 
户 端 从 其 他 节点 获得 服务 。P2P 网 络 具 有 下 列 共 同 的 特征 : 

se 去 中 心 化 ， 在 纯 P2P 计算 系统 中 ， 节 点 在 功能 上 是 对 等 的 ， 并 不 存在 中 央 服 务 器 来 协调 

整个 系统 。 每 个 节点 仅 有 系统 的 部 分 视图 来 构建 覆盖 网 络 ， 控 制 其 数据 和 资源 。 

。 BAS: 自 组 织 意味 着 系统 无 需 中 央 管 理 器 来 组 织 分 散在 所 有 节点 上 的 计算 和 数据 资源 。 
PP 计算 系统 中 的 资源 是 动态 或 波动 的 ， 即 资源 可 以 随时 随意 地 增加 和 移 除 。 对 P2P i+ 
算 系 统 来 说 ， 让 一 台 服 务 器 来 管理 整个 系统 的 代价 是 非常 高 的 。 
临时 连接 和 动态 性 : 节点 可 能 随时 加 入 或 者 离开 ， 其 可 用 性 是 不 可 预见 的 。 这 就 导致 覆 
盖 网 络 拓扑 和 系统 规模 以 较 大 的 幅度 变化 。 即 使 在 动态 性 非常 大 的 环境 下 ，P2P 计算 系 
统 必须 能 够 提供 稳定 的 服务 。 
匿名 性 : 在 去 中 心 化 的 PP 网 络 中 ， 节 点 通过 迁 回路 径 来 发 送 和 接收 请 求 ( 即 两 个 节点 
借助 一 些 中 间 节 点 通信 ) ， 这 个 特点 保证 了 发 送 者 的 匿名 性 。 匿 名 性 也 可 以 借助 哈 希 运 算 
来 实现 。 

可 扩展 性 : P2P 模型 消除 了 传统 集中 式 客 户 端 /服务 器 模型 中 固有 的 单 点 失效 问题 ， 每 个 
节点 仅仅 维护 有 限 的 系统 状态 并 和 其 他 节点 直接 共享 资源 。 这 些 特 征 使 得 P2P 计算 系统 
具有 很 高 的 可 扩展 性 。 

。 BS: 在 P2P 网 络 中 ， 所 有 节点 在 功能 十 是 对 等 的 ， 没 有 节点 支配 整个 系统 。 央 此 ， 单 

个 节点 不 会 造成 系统 的 单 点 失效 问题 ， 资 源 可 以 存储 在 多 个 节点 来 提高 容错 能 力 。 

8.1.1.1 客户 端 /服务 器 体系 结构 和 P2P 体系 结构 的 区 别 

传统 的 客户 端 / 服 务 器 体系 结构 由 一 台 服 务 器 和 与 其 连接 的 大 量 客户 端 主机 组 成 〈 如 图 8-2a 
所 示 ) 。P2P 计算 系统 并 不 需要 一 台中 央 有 上 服务器 ， 而 是 由 对 等 主机 按照 完全 分 布 式 的 结构 组 成 的 


《如 图 8-2b BRAS) 。 也 就 是 说 ， 客 户 端 /服务 器 体系 结构 是 面向 服务 器 的 ， 服务 器 把 任务 分 成 多 个 


子 任务 ， 并 把 子 任务 分 配给 客户 端 ， 客 户 端 
则 独立 地 完成 分 配 的 子 任务 ; 或 者 客户 端 向 
服务 器 请 求 资源 ， 而 服务 器 把 所 请 求 的 资源 


分 发 到 客户 端 。 与 此 相反 ， 在 P2P 网 络 中 ， O 

客户 端 〈 节 点 ) 在 功能 上 是 对 等 的 ， 是 自治 

的 、 自 组 织 的 ， 它 们 之 间 直 接 交 换 资 源 。 与 客户 上 对 等 节点 
客户 端 /服务 器 系统 相 比 ，P2P 系统 相对 松散 a) 客户 端 /服务 器 体系 结构 b) P2P 计 算 模 型 


而 没有 结构 ， 安 全 性 和 可 控 性 较 低 。 图 8-2 客户 端 /服务 器 体系 结构 和 POP 网 络 模型 的 比较 
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8.1.1.2 三 种 P2P 网 络 模 型 

在 有 些 P2P 网 络 中 仍然 存在 服务 器 ,但 服务 器 的 角色 和 其 在 客户 端 /服务 器 模式 中 不 同 。 比 
如 ，Napster 音乐 文件 共享 系统 使 用 索引 服务 器 来 管理 所 有 对 等 节点 共享 的 文件 链接 ， 如 图 8-3a 
所 示 。 每 个 节点 在 索引 服务 器 上 注册 共享 数据 的 信息 ， 而 索引 服务 器 向 请 求 者 返回 文件 拥有 者 
的 地 址 信息 。 数 据 的 传输 则 是 在 文件 请 求 者 和 文件 拥有 者 之 间 直 接 进行 。Gnutella 0. 4 版 本 文件 
共享 系统 则 是 “ 纯 ” 9 的 P2P 模型 ， 如 图 8-3b 所 示 。 每 个 节点 只 索引 自己 共享 的 文件 。 























ge BON Poe 
mss Gb J “ By Be -A 
a) 集中 式 模型 (Napster ) b) 纯 P2P 模 型 ( Gnutella 0.4 ) c) 层次 化 模型 (KaZaA ) 
482 Æ 8-3 P2P 网 络 系统 的 演进 : 从 集中 式 Napster 到 扁平 式 纯 Gnutella， 最 后 到 基于 超级 节点 的 层次 


式 结构 化 KaZaA 


由 于 没有 中 央 索 引 服务 器 ， 请 求 消息 从 请 求 者 的 邻居 开始 在 覆盖 网 络 上 泛 洪 。Gnutella 0.6 
KBE. KaZaA 系统 和 Skype 系统 则 是 一 种 层次 化 P2P 模型 ， 如 图 8-3c 所 示 。 系 统 中 一 部 分 能 力 强 
的 节点 被 选 作 超 级 节点 ， 请 求 只 需要 在 超级 节点 之 间 泛 洪 ， 因 此 系统 的 扩展 性 得 到 了 增强 。P2P 
分 布 式 计算 系统 通常 维护 一 定数 量 的 中 央 服 务 器 用 于 任务 管理 或 与 客户 端 对 等 节点 的 通信 ， 但 
是 客户 端 对 等 节点 之 间 却 不 需要 通信 。 因 此 在 这 种 系统 中 ， 节 点 是 贡献 资源 的 计算 系统 。P2P 平 
台 作 为 中 间 件 基础 方便 P2P 系统 的 开发 和 部 署 。 该 平台 提供 安全 服务 、 通 信和 服务 和 标准 服务 
(如 索引 、 搜 索 和 文件 共享 ) 。 

8.1.1.3 P2P 应 用 

P2P 网 络 已 经 被 广泛 应 用 于 互联 网 应 用 中 。 表 8-1 列 出 了 一 些 典 型 的 P2P 应 用 和 例子 。 最 流 
行 的 P2P 应 用 当 属 文件 共享 应 用 ， 数 据 对 象 在 P2P 内 容 网 络 上 分 发 给 所 有 用 户 。 与 客户 端 /服务 
器 网 络 不 同 ， 这 个 系统 借助 参与 节点 的 资源 来 分 发 内 容 ， 节 点 定位 用 户 并 直接 转播 消息 。 


表 8-1 典型 POP 应 用 及 网 络 系统 例子 






P2P 网 络 的 例子 
Napster, Gnutella, KaZaA, eDonkey 






节点 协作 转发 文件 查询 。 文 件 对 象 在 节点 之 间 直 接 传输 


节点 向 其 他 节点 转发 接收 到 的 内 容 ， 直 到 所 有 节点 都 收 
到 内 容 为 止 


文本 消息 或 者 视频 和 语音 由 系统 中 的 节点 转发 ， 而 不 再 
通过 中 央 服 务 器 转发 


计算 密集 型 任务 被 分 成 多 个 子 任 务 ， 每 个 节点 独立 处 理 
子 任务 
交换 的 事件 和 消息 由 节点 即时 转发 给 组 内 所 有 成 员 Groove, Magi, AIM 
平台 是 支持 P2P 计算 和 使 用 P2P 机 制 的 通用 框架 JXTA Microsoft. NET 















BitTorrent, PPlive 












P2P 即时 通信 Skype，MSN 
















分 布 式 计算 SETI@ Home, Folding@ Home 





协同 工作 支持 
平台 














例 8.1 在 线 视频 电话 的 Skype 网 络 
Skype 是 一 种 流行 的 P2P VoIP (Voice over IP, IP 电话 ) 服务 ,目前 已 有 5 LERAP, 每 


O “ 纯 ” 指 所 有 节点 在 功能 上 完全 对 等 。 一 一 译 者 注 
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天 活路 用户 超过 4 000 万 。Skype 利用 P2P 技术 实现 用 户 资料 存储 、 用 户 搜索 、 媒 体 传 输 和 NAT 
(Network Address Translator) 穿越 ， 支 持 即 时 信息 和 文件 的 传输 。Skype 使 用 专 有 VoIP 网 络 ， 而 
不 是 标准 SIP (Session Initiation Protocol， 会 话 发 起 协议 ) Skype 在 线 VoIP 系统 的 P2P 体系 结构 
如 图 8-4 所 示 。 





登录 消息 交互 





图 8-4 Skype 体系 结构 及 其 主要 组 件 


Skype 和 KaZaA 是 由 同一 团队 研发 的 ， 因 此 二 者 具有 相同 的 结构 ， 都 应 用 混合 P2P 模型 。 任 
何 一 个 节点 只 要 具有 公共 症 地 址 且 拥 有 丰富 的 CPU、 内存 和 网 络 带宽 资源 就 可 以 作为 超级 节点 。 
然而 在 Skype 系统 中 ， 用 户 并 不 能 手工 选择 其 作为 超级 节点 还 是 普通 主机 。 一 个 普通 主机 为 了 加 
入 系统 使 用 VoIP 服务 ， 需 要 与 一 个 超级 节点 相连 。 

超级 节点 和 普通 节点 统称 为 Skype 客户 端 。 每 个 客户 端 维护 一 个 可 达 节 点 列表 ， 即 主机 缓存 
(host cache) 。 该 缓存 包括 部 分 〈 通 常 是 200 个 ) 超级 节点 的 卫 地 址 和 端口 号 。 一 些 由 服务 提供 
商 运 行 的 超级 节点 被 硬 编码 到 客户 端 主机 缓存 中 。 第 一 次 登录 后 ， 客 户 端 获取 其 他 超级 节点 信 
息 存 储 在 缓存 中 。 登 录 服 务 器 作为 Skype 系统 的 唯一 中 央 组 件 保存 用 户 名 及 其 密码 ， 以 便 在 登录 
时 进行 用 户 认证 。 在 登录 过 程 中 ， 客 户 端 首先 与 其 缓存 中 活跃 的 节点 建立 TCP 连接 。 如 果 这 个 
缓存 中 节点 都 不 活跃 ， 则 客户 端 报告 登录 失败 。 此 后 ， 客 户 端 与 登录 服务 器 进行 认证 。 

在 登录 过 程 中 ， 客 户 端 检查 自己 是 否 处 在 NAT 或 防火 墙 后 。 在 线 或 离线 的 用 户 信息 以 去 中 
心 化 的 方式 存储 和 传输 ， 而 用 户 搜索 查询 也 是 以 去 中 心 化 方式 完成 的 。 用 户 的 好 友 列 表 存 储 在 
本 地 Skype 客户 端 。Skype 宣称 使 用 先进 的 全 局 索引 技术 来 实现 用 户 快速 搜索 ， 但 是 由 于 所 有 通 
信 (包括 控制 消息 和 媒体 数据 ) 都 是 加 密 的 ， 目 前 并 不 了 解 这 种 索引 技术 的 具体 细节 。 通 常情 
况 下 ， 客 户 端 使 用 TCP 协议 传输 信 令 ， 使 用 UDP 传输 媒体 数据 。 但 是 ， 如 果 由 于 NAT 或 防火 墙 
等 原因 无 法 使 用 UDP it, Skype 转向 使 用 TCP 连接 。 如 果 通 话 的 客户 端 一 方 处 在 NAT 或 防火 墙 
后 ， 具 有 全 局 了 地址 的 节点 将 作为 中 继 节 点 转发 信 令 和 媒体 数据 。 需 要 说 明 的 是 ， 中 继 节点 可 
能 在 通话 过 程 中 改变 。 a 

$18.2 SETI@Home 项 目 和 分 布 式 超级 计算 

SETI (Search for Extra-Terrestrial Intelligence， 搜 寻 外 星 智 能 ) 通过 分 析 来 自 外 星 的 无 线 电信 
号 来 检测 外 星 智能 活动 。 这 是 一 项 巨大 的 计算 密集 型 任务 ， 需 要 每 秒 万 亿 次 浮 点 运算 (Tflops/s) 
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的 处 理 能 力 。SETI@ Home 项 目 充分 利用 互联 网 边缘 可 用 的 CPU。 该 项 目 由 加 州 大 学 伯克利 分 校 
(UCB) 的 空间 科学 实验 室 在 1999 年 5 月 发 起 ， 已 经 有 520 万 台 分 布 在 全 球 的 计算 机 参与 。 该 项 
目 被 认为 是 目前 最 大 的 分 布 式 计算 项 目 ， 图 8-5 给 出 了 工作 负载 的 分 配 过 程 。 

SETI@ Home 使 用 SERENDIP (搜寻 外 星 无 线 电 发 射 ) 数据 集 来 分 析 。 这 些 数据 存储 在 可 移动 
的 存储 设备 上 ， 然 后 运送 到 UCB 的 实验 室 。SERENDIP 借助 阿 雷 西 博 (Arecibo) 的 望远镜 来 收集 
来 自 外 星 的 无 线 电 发 射 数据 。 数 据 是 由 2.5MHz 的 信号 组 成 的 ， 这 些 信号 数据 划分 成 256 个 频段 ， 
即 每 个 频段 的 宽 约 为 10kHz。 由 这 些 频 段 数据 构成 的 工作 单元 存储 在 服务 器 上 并 分 发 给 参与 的 计算 
机 。 客 户 端 站 点 上 的 程序 在 计算 机 空闲 的 时 候 分 析 这 些 工作 单元 ， 并 最 终 把 结果 发 送 给 服务 器 。 
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图 8-5 对 于 志愿 者 计算 ，SETIG@ Home 工作 负载 的 分 发 过 程 


愿意 参与 SETI@ Home 项 目 从 而 贡献 一 定 计 算 资 源 的 用 户 首先 下 载 BOINC (Berkeley Open 
Infrastructure for Network Computing， 伯 克利 网 络 计算 开放 框架 ) 软件 。 该 软件 自动 下 载 工作 单元 
并 管理 分 析 过 程 。 当 用 户 不 使 用 计算 机 时 ， 用 户 计 算 机 的 屏保 中 显示 部 分 分 析 信 息 。SETI@ 
Home 项 目 充分 利用 了 互联 网 边缘 的 可 用 计算 资源 ， 从 这 种 意义 上 讲 ， 它 是 基于 P2P 技术 的 ， 但 

是 用 户 计算 机 之 间 并 不 直接 通信 。 图 

8.1.2 P2P 计算 面临 的 基础 挑战 

P2P 计算 系统 不 需要 中 央 协 调 点 ， 具 有 良好 的 扩展 性 和 灵活 性 。 本 节 将 介绍 PP 网 络 在 实际 
应 用 中 面临 的 10 大 基础 技术 挑战 ， 这 些 问题 的 解决 方案 后 续 章 节 将 会 研究 。 

8.1.2.1 节点 资源 异 构 

P2P 计算 系统 中 的 对 等 节点 在 硬件 、 软 件 和 网 络 方面 都 是 异 构 的 : 在 硬件 方面 ， 不 同 的 节点 
具有 不 同 的 硬件 平台 和 结构 ; 在 软件 方面 ， 不 同 节点 的 操作 系统 以 及 应 用 软件 等 也 可 能 是 不 兼 
容 的 ; 而 在 网 络 方面 ， 不 同 节点 可 能 运用 不 同 的 协议 和 连接 。P2P 计算 系统 是 通过 利用 对 等 节点 
上 的 资源 聚集 来 完成 整个 任务 的 ， 因 此 在 系统 设计 和 实现 时 需要 以 用 户 透 明 的 方式 处 理 节点 的 
异 构 性 带 来 的 问题 。 

8. 1.2.2 系统 规模 可 扩展 性 

这 是 P2P 计算 系统 的 基本 目标 。 这 个 系统 可 以 支持 成 百 到 上 百 万 的 Web 规模 计算 机 ， 随 着 
系统 规模 的 增 大 ， 系 统 的 效率 不 能 降低 或 者 仅仅 是 缓慢 降低 。 系 统 的 扩展 性 直接 与 性 能 和 带宽 
相关 。 例 如 ， 对 于 一 个 使 用 消息 转发 机 制 来 进行 信息 检索 的 去 中 心 化 的 P2P 文件 共享 系统 来 说 ， 
如 果 消 息 转 发 路 径 长 度 随 着 系统 规模 的 增加 而 线性 增长 ， 那 么 系统 不 具有 良好 的 扩展 性 ， 不 能 
扩展 到 很 大 的 规模 。 

WHE (flooding) 是 P2P 系统 中 资源 定位 的 常用 算法 之 一 ， 该 算法 会 消耗 大 量 的 网 络 带宽 资 
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Wo Gnutella v0. 4 版 本 就 是 使 用 泛 洪 来 查询 转发 消息 的 ， 扩 展 性 差 。Gnutella v0.6 版 本 和 KaZaA 
则 利用 了 系统 中 能 力 较 强 并 且 稳 定 的 节点 作为 超级 节点 ,普通 节点 则 和 超级 节点 相连 。 查 询 消 
息 在 超级 节点 组 成 的 覆盖 网 络 上 泛 洪 ， 而 不 是 整个 覆盖 网 络 ， 节 约 了 带宽 消耗 。 因 此 ， 超 级 节点 
模式 的 P2P 系统 具有 更 好 的 扩展 能 力 。 

8.1.2.3 所 需 节 点 的 高 效 定位 

P2P 系统 中 的 数据 资源 分 布 在 各 个 节点 上 。 在 使 用 或 访问 数据 对 象 之 前 ， 首 先 需要 在 节点 间 
执行 数据 定位 操作 (或 搜索 操作 ) 。 在 P2P 系统 中 往往 并 不 存在 中 心 索引 服务 器 ， 而 每 个 节点 也 
仅 有 系统 的 部 分 视图 ， 因 此 高 效 的 数据 或 者 节点 定位 算法 的 设计 是 P2P 系统 面临 的 又 一 挑战 。 

资源 定位 或 者 搜索 算法 大 致 可 以 归 为 两 类 : 盲目 搜索 和 有 知识 的 搜索 (Informed Search) 。 
在 言 目 搜索 中 ， 节 点 仅仅 维护 自己 数据 的 索引 。 当 一 个 节点 收 到 请 求 消息 后 直接 转发 给 所 有 或 
者 部 分 邻居 ， 而 并 不 考虑 哪 条 路 径 更 有 可 能 收 到 响应 。 在 有 知识 的 搜索 中 ， 节 点 维护 自己 和 一 
些 其 他 节点 数据 的 索引 。 例 如 ， 节 点 在 拓扑 网 络 中 维护 距离 自己 > 跳 (hop) 内 的 所 有 节点 的 数 
据 索 引 。 节 点 将 查询 转发 给 更 可 能 响应 的 邻居 节点 ， 盲目 搜索 方法 面临 的 主要 挑战 是 以 较 小 的 
带宽 消耗 来 找到 合适 的 节点 ， 而 对 于 有 知识 的 搜索 来 说 ， 挑 战 主要 是 以 较 低 的 控制 开销 来 维护 
其 他 节点 的 数据 索引 。 

8.1.2.4 数据 局 部 性 和 网 络 邻 近 性 

数据 局 部 性 和 网 络 邻近 性 是 现代 P2P 应 用 的 两 个 主要 设计 目标 。 数 据 局 部 性 是 指 具 有 相似 
属性 值 的 数据 保存 在 覆盖 网 络 拓扑 中 邻近 的 节点 上 ， 是 实现 复杂 查询 操作 和 快速 数据 定位 的 有 
效 方法 。 网 络 邻 近 性 是 由 底层 物理 IP 网 络 中 两 个 节点 的 距离 来 度量 的 。 在 一 个 考虑 网 络 邻近 性 
的 P2P 覆盖 网 络 中 ， 履 盖 网 络 中 邻近 的 节点 在 物理 网 络 上 也 是 邻近 的 ， 反 之 亦 然 。 这 样 查询 消 
息 或 者 数据 项 将 会 在 物理 网 络 上 距离 近 的 节点 之 间 传 输 ， 不 仅 提升 了 服务 质量 (QoS), ， 同 时 节 
约 了 网 络 带宽 。 图 8-6 举例 给 出 了 考虑 网 络 邻近 性 的 好 处 。 

图 8-6c Æ IP 网 络 的 一 个 部 分 ，C, AC, 属于 一 个 自治 系统 (Autonomous System ，AS) ， 而 
C, AC, 属于 另 一 个 自治 系统 。 如 果 这 4 个 节点 组 成 的 覆盖 网 络 拓扑 如 图 8-6a 所 示 ， 则 从 C, 到 
C, 的 消息 需要 在 AS 之 间 的 链 路 上 传输 2 次 。 这 不 仅 会 增加 传输 延迟 ， 而 且 会 消耗 AS, 和 AS, 之 
间 不 必要 的 骨干 网 带宽 。 考 虑 网 络 邻 近 性 的 覆盖 网 络 如 图 8-6b MR, MC 到 C, 的 消息 不 再 需要 
在 AS 之 间 的 链 路 上 传输 。 设 计 网 络 邻 近 性 感知 的 覆盖 网 络 的 核心 挑战 在 于 如 何在 去 中 心 化 的 P2P 
覆盖 网 络 中 找到 物理 网 络 中 距离 近 的 节点 ， 其 中 只 有 一 个 中 心服 务 器 , 没有 节点 有 全 局 知识 。 


© © © © 
G) Cy) © C) 


a) 低 效 的 覆盖 网 络 b) 网 络 邻 近 性 感知 的 覆盖 网 络 





AS， AS, 


c ) 底层 IP 拓 扑 
8-6 ”构建 网 络 邻近 性 感知 的 P2P 覆盖 网 络 





日 ” 指 在 覆盖 网 络 上 和 该 节点 连接 的 节点 。 一 一 译 者 注 
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8.1.2.5 路 由 效率 

和 了 P 网 络 一 样 ， POP 网 络 。 也 需要 路 由 算法 来 把 消息 转发 到 目的 节点 ， 因此 路 由 算法 直接 影 
响 着 系统 的 性 能 。 纯 PP 系统 虽然 不 存在 单 点 失效 问题 ， 但 仍然 面临 连接 中 断 、 目 的 不 可 达 、 
网 络 图 分 割 和 节点 失效 等 问题 。 系 统 需 要 在 存在 上 述 问题 的 环境 下 仍然 能 够 正常 运行 ， 并 能 以 
自 组 We 


分 布 式 系统 中 维护 副本 的 一 致 性 是 面临 的 又 一 巨大 挑战 。 
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8.1.2.6 避免 “搭便 车 ”(free-riding) 

P2P 系统 依赖 于 互联 网 边缘 的 资源 聚集 来 提高 性 能 ， 但 是 参与 节点 可 能 是 自私 的 ， 不 愿意 贡 
献 任 何 资源 ， 这 就 造成 了 “搭便 车 ”问题 。 该 问题 在 那些 依赖 于 个 体 来 贡献 资源 的 系统 中 是 普 
遍 存在 的 ， 因 为 当 人 们 认为 其 他 人 会 为 公共 物品 而 付费 时 是 不 愿意 自己 付费 的 。 解 决 该 问题 的 
方法 是 激励 机 制 : 激励 个 体 节点 贡献 更 多 的 资源 。 激 励 机 制 的 核心 是 准确 地 评估 节点 的 贡献 并 
给 予 相 应 的 奖励 ， 但 同时 需要 保护 隐私 和 抵御 恶意 攻击 。 

8.1.2.7 匿名 和 隐私 

PP 系统 中 的 节点 希望 隐藏 自己 的 信息 。 匿 名 是 节点 的 一 个 选择 ， 特 别 是 对 于 PP 通信 系统 
中 的 节点 。 医 名 可 以 分 为 三 个 层次 ， 即 发 起 者 匿名 、 响 应 者 匿名 和 相互 匿名 。 前 两 个 层次 的 匿名 
又 称 为 单 向 匿名 ， 而 第 三 个 层次 的 匿名 又 称 为 双向 匿名 。 通 常 来 说 ， 单 向 匿名 可 以 通过 “洋葱 
式 ” 路 由 来 实现 。 

例 8.3 基于 “ 洋 惹 式 ” 路 由 的 节点 匿名 保护 

在 “洋葱 式 ” 路 由 中 ， 发 起 者 事先 知道 整个 路 由 的 路 径 ， 但 中 间 路 由 器 并 没有 这 样 的 信息 。 
“洋葱 式 ” 路 由 通过 对 传 入 消息 和 下 一 跳 信 息 的 递归 加 密 来 实现 对 最 终 目 的 的 源 信 息 的 隐藏 。 加 
密 后 的 消息 形成 一 个 层次 结构 ， 每 一 层 包含 下 一 跳 节点 〈 称 为 洋葱 路 由 器 ) 信息 。 每 个 洋葱 路 
由 器 移 除 一 层 ， 并 向 下 一 跳 洋葱 路 由 器 转发 剩余 的 消息 。 按 照 这 种 方式 ， 任 意 一 个 节点 仅仅 知道 
消息 路 径 上 自己 的 前 一 跳 和 后 一 跳 节点 的 信息 。 

图 8-7 给 出 了 “ 洋 苞 式 ”路 由 的 一 个 例子 ,消息 从 节点 A 发 送 到 节点 B。 对 于 节点 A 的 信息 
来 说 ， 节 点 C、D 和 B 并 不 知道 ， 而 消息 本 身 对 于 C 和 D 来 说 是 不 可 见 的 “洋葱 式 ”路 由 可 以 
进一步 借助 基于 对 称 密 钥 的 加 密 技 术 来 提升 。 相 互 匿名 需要 同时 隐藏 发 起 者 和 响应 者 的 标识 信 
息 ， 且 其 他 人 不 能 推断 出 二 者 的 信息 。 消 息 加 密 和 为 节点 建立 代理 是 实现 相互 匿名 的 两 种 方法 ， 
但 它们 会 带 来 额外 开销 并 与 PP 系统 的 设计 目标 相 冲 突 。 例 如 ， 加 密会 带 来 加 解密 的 开销 ， 而 
使 用 代理 和 去 中 心 化 的 理念 相 矛 盾 。 | 





图 8-7 基于 “洋葱 式 ” 路 由 的 匿名 通信 举例 


8.1.2.8 ”信任 和 信誉 管理 
节点 之 间 缺 乏 信 任 是 P2P 系统 面临 的 另 一 个 问题 。 节 点 相互 之 间 是 陌生 的 ， 不 可 避免 地 
存在 一 些 不 合作 甚至 破坏 系统 的 节点 ， 这 就 要 求 系统 提供 一 种 可 信 的 环境 。 在 这 种 环境 中 ， 


O 尤其 是 基于 DHT 的 结构 化 P2P 网 络 。 一 一 译 者 注 
O ”类 似 于 洋葱 结构 。 一 一 译 者 注 
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节点 的 信任 是 可 以 度量 的 ， 而 且 恶 意 节点 会 受到 处 罚 。 然 而 P2P 系统 是 完全 分 布 式 的 ， 节 点 
之 间 的 交互 是 直接 进行 的 ， 并 不 需要 经 过 中 央 服 务 器 。 因 此 建立 可 信 的 PP 环境 是 面临 的 又 
一 挑战 。 

8.1.2.9 网 络 威胁 和 攻击 防御 

P2P 系统 分 散 和 自 组 织 的 特点 使 得 实施 针对 系统 的 攻击 非常 容易 。 拒 绝 服务 (Denial of 
Service, DoS) 和 分 布 式 拒绝 服务 (Distributed Denial of Service, DDoS) 攻击 可 以 通过 对 其 他 节 
点 宣称 目标 节点 拥有 请 求 的 所 有 文件 并 向 目标 节点 泛 洪 消息 来 实现 ， 而 服务 质量 攻击 则 可 以 通 
过 以 较 慢 的 速度 发 送 文 件 或 者 发 送 异 于 请 求 的 文件 来 实现 。 此 外 ，P2P 系统 匿名 特性 有 利于 恶意 
节点 对 外 隐藏 信息 ， 更 不 容易 被 发 现 。 

例 8.4 DDoS 攻击 防御 

图 8-8 中 给 出 了 两 个 恶意 节点 通过 在 整个 网 络 泛 洪 查询 消息 来 实现 DDoS 攻击 的 例子 。 恶 意 
节点 向 一 个 或 者 多 个 网 络 节点 泛 洪 不 必要 的 查询 或 者 消息 ， 从 而 使 得 这 些 节点 的 缓存 区 溢出 ， 
造成 TCP 连接 无 法 继续 接收 数据 。 被 泛 洪 攻 击 的 节点 需要 应 付 泛 洪 消息 而 无 法 再 处 理 从 友好 节 
点 发 送 来 的 查询 。 一 个 良好 的 P2P 网 络 应 该 能 够 处 理 针对 任何 节点 的 泛 洪 攻击 。 针 对 P2P 网 络 
的 攻击 也 可 能 来 自 网 络 外 部 ， 这 时 系统 中 的 某 些 对 等 节点 被 外 部 节点 控制 成 为 僵尸 节点 。 a 





O0 ”恶意 节点 
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图 8-8 P2P 网 络 中 通过 消息 泛 洪 实现 的 DDoS 攻击 举例 


8.1.2.10 抗 扰动 (Chum Resilience) 

P2P 计算 系统 中 的 节点 来 自 互联 网 边缘 的 客户 端 ， 它 们 可 能 随时 加 入 、 离 开 ， 甚 至 失效 。 失 
效 节点 不 再 继续 转发 消息 ， 其 至 可 能 会 导致 其 他 节点 失去 和 系统 的 连接 或 者 丢失 索引 信息 。 例 
如 ， 在 KaZaA 中 ， 如 果 超 级 节点 失效 ， 与 其 连接 的 普通 节点 将 失去 和 系统 的 连接 ， 不 得 不 寻找 
其 他 超级 节点 以 重新 和 系统 连接 ， 而 且 失 效 超级 节点 保存 的 索引 信息 也 将 丢失 。 节 点 失效 使 得 
容错 成 为 P2P 网 络 面临 的 巨大 挑战 。 由 于 没有 中 央 服 务 器 作为 协调 器 ， 节 点 借助 周期 性 的 心跳 
消息 来 检测 其 他 节点 的 状态 和 可 用 性 。 

8.1.2.11 抵御 共 谋 盗版 

网 上 盗版 阻碍 了 PP 文件 共享 系统 合法 化 和 商业 化 。 不 合法 文件 内 容 从 拥有 合法 内 容 的 节 
点 处 散播 给 盗版 者 ， 这 种 行为 称 为 共 谋 。 代 理 可 以 借助 一 些 客户 端 来 发 现 共 谋 者 : 每 个 客户 端 向 
可 疑 节 点 发 送 不 合法 内 容 下 载 请 求 ， 如 果 可 疑 节 点 返回 于 净 合 法 的 内 容 ， 那 么 反馈 分 数 1 ， 否 则 
反馈 分 数 -1。 如 果 反 馈 分 数 超过 预定 的 阔 值 ， 可 疑 节点 就 被 认定 为 共 谋 者 。 

共 谋 盗版 是 P2P 网 络 中 知识 产权 侵犯 的 主要 来 源 。 付 费 客户 端 ( 共 谋 者 ) 可 能 向 非 付费 
客户 端 (盗版 者 ) 非法 共享 版 权 保护 的 文件 内 容 ， 这 种 行为 阻碍 了 P2P 网 络 在 商业 内 容 分 发 
系统 中 的 使 用 。Lou 和 Hwang 4A O 提出 了 一 种 主动 内 容 污染 机 制 来 阻止 针对 受 版 权 保护 内 
容 的 共 谋 和 盗版 行为 ， 其 基本 思想 是 使 用 基于 标识 的 签名 和 时 间 蕉 令 牌 尽早 发 现 盗版 行为 。 
该 机 制 在 不 影响 合法 P2P 客户 端的 前 提 下 ， 针 对 版 权 侵犯 者 有 目标 的 进行 内 容 污染 来 阻止 共 
谋 盗 版 行为 。 
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8.1.3 P2P 网 络 系统 分 类 

本 节 根 据 P2P 网 络 的 结构 和 功能 对 其 进行 分 类 ， 如 图 8-9 所 示 ， 其 中 P2P 网 络 使 用 其 名 字 或 
者 简要 叙述 来 表示 。 一 些 常 抑 的 PP 网 络 将 会 在 后 面 章节 的 例子 中 详细 给 出 。 

8.1.3.1 无 结构 PPR% 

无 结构 P2P 覆盖 网 络 的 邻居 关系 以 一 种 没有 约束 的 随机 方式 建立 。 当 用 户 匿名 性 和 低 管 理 
开销 是 系统 设计 目标 时 ， 无 结构 覆盖 网 络 是 较 好 的 选择 。 很 多 PP 网 络 是 从 无 结构 约束 开始 的 ， 
常见 的 有 Napster, Gnutella, KaZaA, Skype, BitTorrent 和 eMule (电驴 )。 下 面 列 出 了 无 结构 P2P 
害 盖 网 络 的 特征 : 

e 数据 随机 分 布 在 节点 上 。 

。 和 覆盖 网 络 由 集中 式 控制 开始 ， 逐 渐 转 移 到 完全 去 中 心 化 控制 。 

e 没有 广播 机 制 〈 即 使 有 ， 也 是 非常 受 限 的 ) 。 

© 在 整个 网 络 上 的 泛 洪 查 询 产 生 大 量 网 络 流量 。 

© 没有 确定 性 搜索 结果 的 保障 。 

e TTL (time to live， 存 活 时 间 ) 受 限 的 查询 消息 可 能 到 达 整 个 网 络 。 

8.1.3.2 结构 化 P2P 履 盖 网 络 

在 结构 化 P2P 履 盖 网 络 中 ， 对 等 节点 按照 预先 定义 好 的 结构 (如 将 在 8.2 节 介 绍 的 环 、 弦 
或 者 树 状 结构 ) 组 织 ， 如 常见 的 Chord, CAN, Pastry 和 Tapestry 等 。 很 多 P2P 网 络 开始 时 使 用 随 

490 | 机 结构 ， 但 随后 采用 更 加 安全 和 高 效 的 覆盖 网 络 来 加 速 搜 索 和 下 载 。 下 面 列 出 了 结构 化 PP A 
盖 网 络 的 一 些 有 用 特征 ; 

。 和 窗 盖 网 络 上 的 结构 化 路 由 机 制 。 

。 在 节点 之 上 增加 应 用 层 覆 盖 网 络 。 

。 和 基于 随机 图 的 覆盖 网 络 相 比 ， 路 由 跳 数 低 。 

。 消除 了 泛 洪 和 热点 区 域 问题 。 

。 保证 搜索 结果 。 

o 提供 对 等 节点 之 间 的 负载 均衡 。 

。 提供 良好 的 可 扩展 性 和 容错 能 力 。 

。 如 果 需 要 ， 可 以 保持 数据 的 局 部 性 。 
。 在 拓扑 受 限 的 情况 下 提供 自 组 织 能 力 。 

se 提供 增强 的 安全 保护 。 

。 支持 节点 异 构 。 

8.1.3.3 基于 结构 和 功能 的 系统 分 类 

图 8-9 根据 系统 设计 模式 和 功能 对 P2P 系统 进行 了 分 类 。 最 下 面 一 行 是 早期 的 集中 式 系统 ， 
中 间 一 行 是 分 散 的 无 结构 P2P 系统 ， 如 Gnutella, FastTrack 和 DirectConnect ， 最 上 面 一 行 是 分 散 
的 结构 化 P2P 系统 。 图 的 左下 角 是 集中 式 和 无 结构 的 Napster 系统 ， 而 图 的 右上 角 则 是 P2P 资源 
管理 、P2P 目录 服务 ， 以 及 P2P 数据 库 等 基于 结构 化 覆盖 网 络 的 分 散 系统 。 

CSCW (Computer-Supported Cooperative Work) 是 指 计 算 机 支持 的 协同 工作 。CAN、Chord、 
Pastry 和 Tapestry 是 基于 分 散 控制 的 结构 化 覆盖 网 络 。 就 功能 上 来 说 ，P2P 网 格 主要 是 那些 没有 
固定 结构 的 分 布 式 计算 和 协同 应 用 。SETI@ Home 是 有 集中 控制 的 分 布 式 超级 计算 应 用 ， 而 其 他 
的 P2P 网 络 则 在 图 8-9 二 维 的 图 中 四 处 分 散 。 需 要 说 明 的 是 ， 图 中 某 些 区 域 是 空白 的 或 者 用 带 有 
问号 的 标签 来 标识 ， 这 是 因为 目前 还 没有 符合 这 些 类 别 的 P2P 系统 。 
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设计 模式 
一 一 了 了 了 了 了 a Dc 
CAN P2P 数 据 库 “| 
分 散 & 结 构 化 S P2P 目 录 服务 
tapestry | i P2P 资 源 管 理 | 
Ll_PRPCGCW 1 ______. i 
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快速 跟踪 i 
FYB CELLA Rama 
1 
1 1 1 J 
! SETI@Home | Jabber | JxTA | 
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功能 
文件 共享 分 布 式 计算 协作 平台 


图 8-9 按照 功能 和 设计 模式 对 P2P 系统 进行 分 类 
iÈ: 由 Min Cai 提供 ，EE657 报告 ， 南 加 州 大 学 ，2007。 


8.2 P2P 履 盖 网 络 及 其 性 质 


覆盖 网 络 是 建立 在 物理 下 网 络 上 的 ， 其 中 的 节点 是 来 自 物理 网 络 的 主机 ， 而 链 路 则 是 节点 
之 间 的 TCP 连接 或 者 是 简单 地 指向 IP 地 址 的 指针 。 这 个 虚拟 链 路 不 一 定 具 有 相同 的 权重 ， 可 根 
据 链 路 的 类 型 来 为 链 路 赋予 不 同 的 权重 。 由 于 终端 主机 是 动态 的 ， 需 要 拓扑 维护 协议 来 维护 覆 
盖 网 络 。 新 节点 借助 已 经 在 覆盖 网 络 中 的 节点 来 加 入 覆盖 网 络 ， 而 节点 之 间 使 用 周期 性 心跳 消 
息 来 探测 邻居 是 否 存 活 。 如 果 邻 居 失效 ， 节 点 需要 按照 维护 协议 选择 其 他 节点 连接 。 

物理 全 网 络 中 的 主机 可 以 映射 到 由 虚拟 链 路 建立 的 覆盖 网 络 。 在 图 1-17 中 ,垂直 虚线 表示 
了 从 物理 主机 到 虚拟 节点 (也 称 为 对 等 节点 ) 的 映射 关系 。 覆 盖 网 络 不 需要 额外 的 物理 设施 ， 
因此 易于 部 署 和 使 用 ， 而 且 其 拓扑 也 可 以 根据 应 用 来 改变 。 节 点 失效 处 理 较为 容易 ， 因 为 节点 可 
以 选择 其 他 仍然 存活 的 节点 连接 。 通 信 协 议 没 有 任何 限制 ， 应 用 设计 者 可 以 根据 需要 设计 任意 
协议 。 底 层 物理 网 络 对 于 覆盖 网 络 设 计 者 来 说 是 透明 的 ,但 是 为 了 更 好 地 利用 网 络 资源 (如 网 
络 邻近 性 ) ， 设 计 者 则 需要 考虑 物理 网 络 。 

PP 网 络 是 一 种 覆盖 网 络 。 根 据 覆 盖 图 的 性 质 ，P2P 网 络 可 以 分 为 两 类 : 无 结构 覆盖 网 络 和 
结构 化 覆盖 网 络 。 无 结构 覆盖 网 络 通常 基于 随机 图 来 建立 ， 节 点 随机 从 覆盖 网 络 中 选择 节点 作 
为 邻居 。 与 其 相反 ， 结 构 化 覆盖 网 络 图 则 具有 事先 定义 好 的 结构 〈 比 如 环 、 超 立方 体 等 ) ， 每 个 
节点 具有 唯一 的 标识 而 且 只 能 和 那些 标识 满足 预先 定义 条 件 的 节点 连接 。 有 些 P2P 覆盖 网 络 则 
是 无 结构 和 结构 化 覆盖 网 络 的 混合 ， 具 有 无 结构 和 结构 化 覆盖 网 络 的 优点 。 

8.2.1 无 结构 P2P 覆盖 网 络 

为 了 构建 一 个 好 的 无 结构 P2P 覆盖 网 络 ， 节 点 的 度 ( 即 邻 居 的 数目 ) 以 及 从 一 个 节点 到 另 
一 个 节点 所 经 过 的 节点 数目 应 该 尽量 小 。 此 外 ， 加 和 人 或 离开 操作 不 能 对 覆盖 网 络 拓扑 图 造成 大 
的 变动 。 最 后 ， 在 节点 失效 或 者 意 想不到 地 离开 时 ， 覆 盖 网 络 仍 然 可 以 确定 消息 转发 路 径 。 

8.2.1.1 基于 随机 图 的 履 差 网 络 构建 

ER (Erdos-Renyi) 随机 图 | 可 以 看 做 是 无 结构 P2P 覆盖 网 络 构建 的 基础 模型 。 任 意 两 个 顶 
点 (节点 ) 有 一 条 边 的 概率 p 是 相同 和 独立 的 ， 因 此 一 个 节点 的 度 为 的 概率 如 下 式 所 示 (其 
中 ,nn 为 图 中 的 节点 数 。 一 一 译 者 注 ) : 


491 
? 
492 
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n-l)\, _ -l-k  ， . 
Pid =k} = (7 Jp‘ -7) (8-1) 
据 此 ， 节 点 度 的 数学 期 望 为 Bldj = (n - 1)p 。 如 果 忆 =cmm， 那 么 当 很 大 时 , Pid =k} = 
Ee, 即 节点 的 度 服从 泊 松 分 布 。 对 于 无 结构 P2P 系统 来 说 ，ER 随机 图 过 于 随机 化 ， 设 计 分 


布 式 路 由 算法 〈( 即 用 于 确定 一 个 节点 到 另 一 个 节点 转发 路 径 的 算法 ) 非常 困难 。 

8.2.1.2 小 世界 (Small-World) 模型 

小 世界 图 中 有 两 个 显著 的 特性 : 平均 最 短路 径 小 和 聚 类 系数 高 。 这 两 个 特性 对 于 PP 系 
统 来 说 是 至 关 重 要 的 : 前 者 可 以 减少 节点 之 间 的 跳 数 ， 而 后 者 有 利于 处 理 大 量 用 户 或 者 任务 
同时 到 来 (flash crowd) AIA. FEAR A PRP NAF, BP RAMEE, BNE 
居 和 远 邻 居 。 节 点 i 的 近邻 居 是 那些 与 i 的 距离 小 于 p 的 邻居 节点 ， 而 节点 i 的 远 邻 居 则 是 从 那 
些 与 i 的 距离 大 于 p 的 节点 中 随机 选 出 的 。 节 点 i 和 那些 与 其 距离 小 于 p 的 任意 节点 j 建立 链 接 ， 
Bi d(i, j) <p， 并 和 与 其 距离 为 d(i,v) 的 节点 "以 概率 dli, v) “建立 链接 ， 其 中 为 聚 类 指 
数 。 搜 索 查 询 通 过 向 距离 近 的 邻居 转发 逐步 到 达 目 的 节点 。 聚 类 指数 + 是 影响 搜索 时 间 的 重要 
因素 。 

8.2.1.3 无 标 度 图 

无 标 度 图 模型 同样 在 PP 网 络 中 广泛 使 用 。 节 点 的 度 服 从 器 律 分 布 ， 即 一 个 节点 的 度 为 的 
概率 与 “成 正比 ， 其 中 a 是 一 个 介 于 (2，3) 的 常数 。 图 的 直径 〈( 即 任意 两 个 节点 的 最 短 上 距离 
的 最 大 值 ) 大 小 为 Oln) 量 级 ， 其 中 为 图 中 节点 的 数目 。 因 此 ， 当 图 的 规模 增 大 时 ， 直 径 
变化 并 不 大 。 现 实生 活 中 ,很 多 网 络 是 无 标 度 网 络 ， 如 社会 网 络 和 互联 网 拓扑 图 等 。 

在 Gnutella 0.4 版 本 的 覆盖 网 络 中 ， 节 点 的 度 服从 参数 a 近似 为 2. 3 Re, WRR 
律 分 布 的 原因 在 于 新 节点 更 有 可 能 和 度 高 的 节点 建立 覆盖 连接 。 无 标 度 网 络 对 于 随机 节点 失效 
具有 很 好 的 抵抗 力 ， 但 是 在 面 对 那 些 针 对 度 高 的 节点 的 攻击 时 ， 拓 扑 图 可 能 会 被 分 割 为 若干 个 
相互 不 连通 的 子 图 或 者 图 的 直径 将 大 幅 增 加 。 因 此 ， 在 构建 基于 无 标 度 图 的 P2P 覆盖 网 络 时 ， 
在 可 能 的 情况 下 需要 隐藏 度 高 的 节点 的 标识 。 

8.2.1.4 P2P 分 布 式 文件 共享 系统 

无 结构 P2P 网 络 最 流行 的 应 用 当 属 P2P 文件 共享 系统 。 表 8-2 比较 了 三 种 PP 文件 共享 系 
统 : Napster, Gnutella 和 KaZaA。 它 们 代表 了 三 种 不 同类 型 的 P2P 服务 模型 。 在 这 些 系 统 中 ， 数 

据 随 机 分 布 在 节点 上 ， 使 用 泛 洪 算法 来 查找 所 需 的 文件 。 为 了 减少 泛 洪 产生 的 大 量 流量 ， 查 找 消 
BWA TTL 以 限制 泛 洪 的 范围 。 而 且 系统 并 不 对 搜索 结果 进行 保证 。 

这 三 个 文件 共享 系统 的 不 同 之 处 在 于 ，Napster 是 集中 式 控制 的 ，Gnutella 是 纯 P2P 网 络 ， 而 
KaZaA 是 层次 化 结构 。Napster 系统 搜索 所 需 时 间 是 常数 ，Gnutalla 使 用 泛 洪 搜索 整个 网 络 ， 搜 索 
所 需 时 间 最 长 ， 而 在 KaZaA 中 搜索 仅 在 超级 节点 之 间 进 行 ， 因 此 搜索 所 需 时 间 介 于 其 他 两 个 系 
统 之 间 。 近 年 来 ， 三 种 P2P 文件 共享 系统 都 遇 到 了 严重 的 非法 下 载 和 版 权 侵犯 问题 。 

例 8.5 基于 泛 洪 搜索 的 Gnutella (0. 4 版 本 ) 网 络 

Gnutella 文件 共享 系统 属于 纯 P2P 模型 ， 每 个 节点 功能 上 对 等 ， 在 向 其 他 节点 上 传 文件 时 作 
为 服务 器 ， 而 在 从 其 他 节点 下 载 文件 时 作为 客户 端 ， 因 此 节点 又 称 为 服务 节点 (servant), 
Gnutella 定义 了 一 系列 消息 ， 称 为 描述 符 。 正 如 图 8-10 所 示 ，Gnutella 使 用 基于 泛 洪 的 搜索 来 定 
位 副本 多 的 文件 。 节 点 向 多 个 邻居 节点 发 送 请 求 消息 ， 这 些 邻 居 向 更 多 的 节点 转发 消息 ， 最 终 在 
整个 覆盖 网 络 上 泛 洪 。 泛 洪 机 制 会 产生 大 量 的 流量 ， 可 能 会 导致 网 络 饱和 瘫 疾 。 因 此 ， 发 送 或 转 
发 的 消息 ， 以 及 消息 的 转发 跳 数 需要 受到 限制 。 
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表 8-2 基于 无 结构 覆盖 网 络 的 P2P 文件 共享 应 用 



















P2P 网 络 Napster Gnutella KaZaA 
体系 结构 集中 式 模型 纯 P2P 模型 带 有 超级 节点 的 层次 化 结构 
文件 索引 Se AIR AE | 每 个 节点 仅 保存 自己 的 文 | 超级 节点 保存 与 其 连接 的 节点 的 
有 链接 件 索引 索引 
terpenes AWMSERT RBM! up 
搜索 算法 查询 请 求 发 送 到 索引 服务 上 泛 洪 ， 具 有 匹配 文件 的 节 查询 发 送 给 超级 节点 ， 然 后 在 超级 


器 ， 由 服务 器 返回 搜索 结果 


点 返回 结果 


节点 之 间 泛 洪 并 返回 结果 


一 才 一 一 一 一 一 一 一 一 


O(log m), 其 中 m 为 超级 节点 








搜索 时 间 〈 跳 数 ) 0(1) 


搜索 成 本 《消息 数 | 0 01) 
目 ) 





O (logn) 


数目 





0(d*n), d 为 节点 的 
度数 


发 起 者 从 单个 节点 直接 获 


查询 发 起 者 从 任 一 个 节点 


O(cem), c 为 超级 节点 的 度数 














文件 获取 方式 |e Be 发 起 者 从 多 个 节点 并 行 获取 文件 
可 扩展 性 受到 集中 服务 器 的 限制 | 受到 高 搜索 成 本 的 限制 了 
由 于 节点 完全 对 等 ， 因 此 
容错 能 力 单 点 失效 Re 超级 节点 易于 受到 攻击 











图 8-10 Gnutella 系统 中 的 泛 洪 搜 索 机 制 ， 用 于 搜索 能 提供 数字 内 容 文件 的 节点 


图 8-11 给 出 了 Gnutella 描述 符 的 头 和 载荷 格式 。 描 述 符 头 包含 22 个 字 节 ， 其 中 前 16 个 字 节 
用 于 作为 描述 符 的 全 局 唯一 ID， 而 载荷 描述 符 使 用 1 个 字 节 。Gnutella 定义 了 5 种 类 型 的 描述 
4, 包括 Ping (0X00) Pong (0X01), Query (0X40) QueryHit (0X80) 和 push (0X80), TTL 
和 跳 数 字段 各 占用 1 个 字 节 。TTIL 由 描述 符 的 发 起 者 初始 化 ， 并 在 每 次 转发 时 减 1。 当 TTL RA 
0 时 ， 描 述 符 被 丢弃 ， 不 再 转发 。 


头 部 荷 
— s _ «e 
字 节 
Se eM ee ee ee, ee ie ae eee | 
偏 移 15 16 17 18 19 22 


载 
载 
0 可 变 长 
图 8-11 Gnutella 数据 包 描述 符 格 式 
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TTL 用 来 限制 描述 符 所 能 到 达 的 范围 ， 从 而 减少 无 限制 泛 洪 产生 的 通信 成 本 。 跳 数字 段 则 是 
用 来 对 描述 符 被 转发 的 次 数 进行 计数 。 描 述 符 头 的 最 后 4 个 字 节 是 载荷 长 度 ， 紧 随 其 后 的 是 可 变 
长 的 载荷 。 例 如 ，Ping 描述 符 没 有 载荷 ， 而 其 他 4 种 描述 符 的 载荷 则 是 变 长 的 。 

服务 节点 使 用 Ping 描述 符 来 发 现 其 他 描述 符 。 节 点 收 到 Ping 后 沿 着 Ping 的 反 向 路 径 返 回 一 
个 或 者 多 个 Pong 描述 符 。Pong 描述 符 由 响应 节点 的 地 址 和 它 共 享 的 数据 量 组 成 。Query 描述 符 
用 于 搜索 ， 而 QueryHit 描述 符 用 于 响应 Query。 新 的 服务 节点 与 引导 节点 联系 以 加 入 系统 ， 此 后 
使 用 描述 符 和 其 他 节点 通信 ， 如 发 送 Ping 来 发 现 更 多 的 服务 节点 以 便 连 接 。 

一 般 来 说 ，Ping 和 Query 描述 符 以 泛 洪 的 方式 发 送 ， 服 务 节 点 在 收 到 这 样 的 描述 符 后 将 向 
它们 的 邻居 转发 。 显 然 ， 如 果 泛 洪 范围 不 加 限制 ， 这些 描述 符 将 平均 每 次 被 转发 给 d 个 邻居 ， 
其 中 qd 为 节点 的 平均 邻居 数 。 那 么 nn 个 节点 组 成 的 Gnutella 系统 需要 使 用 d*n 个 消息 ， 而 其 
中 的 〈d -1) *n 个 消息 是 重复 的 。 大 量 的 泛 洪 消息 限制 了 系统 的 可 扩展 性 。 

Gnutella 通过 描述 符 中 的 TIL 来 限制 泛 洪 的 范围 ,每 转发 一 次 描述 符 ，TIL 减 1。 当 TIL 减 
到 0 时 ， 描 述 符 将 被 丢弃 不 再 转发 。TTL 缺 省 设置 为 7， 这 是 因为 在 此 条 件 下 ，95 哆 的 服务 节点 
将 被 搜索 到 。 但 是 请 求 的 文件 可 能 就 在 剩余 的 5 多 节点 中 ， 此 时 ， 虽 然 请 求 的 文件 在 系统 中 存 
在 ， 但 请 求 将 无 法 得 到 满足 。 

Gnutella 中 的 泛 洪 搜索 适用 于 定位 那些 拥有 很 多 副本 的 文件 〈( 即 “ 草 ”) ， 而 不 适用 于 定位 很 
少 副本 的 文件 〈( 即 “ 针 ”) 。 由 于 用 户 通常 请 求 副 本 较 多 的 文件 ，Gnutella 在 实际 中 是 非常 有 效 
的 。 请 求 发 起 者 直接 使 用 HTTP 从 文件 拥有 者 处 下 载 文件 。 自 0.6 版 本 以 后 ，Gnutella 开始 使 用 
和 KaZaA 相同 的 层次 式 体 系 结构 ， 利 用 能 力 强 的 节点 作为 超级 节点 。 在 这 种 情况 下 ,描述 符 仅 
在 超级 节点 之 间 泛 洪 ， 大 幅 减 少 了 搜索 成 本 ， 提 高 了 可 扩展 性 。 a 
8.2.2 分 布 式 哈 希 表 (DHT) 

如 图 8-12 所 示 ， 分 布 式 哈 希 表 作为 中 间 件 为 分 布 式 系统 (特别 是 P2P 系统 ) 提供 信息 搜索 
或 者 表 查询 服务 。 哈 希 表 由 〈 键 ， 值 ) 对 组 成 ，DHT 把 这 种 哈 希 对 存储 在 标识 空间 。 例 如 ， 一 
个 由 64 位 二 进 制 字符 串 构成 的 标识 空间 可 以 存储 2 个 键 ， 也 就 是 能 存储 2% 个 数据 对 象 。DHT 
使 用 多 个 不 同 的 哈 希 函数 把 数据 对 象 映 射 到 键 ， 而 〈 键 ， 值 ) 则 分 布 在 P2P 网 络 中 的 节点 上 。 
节点 的 标识 是 由 哈 希 函 数 (如 SHA-1) 哈 希 其 地 址 值 而 得 到 。 





图 8-12 分 布 式 哈 希 表 的 键 值 映射 


标识 空间 归 所 有 节点 共同 拥有 ， 每 个 节点 负责 一 部 分 标识 区 域 。DHT 提供 与 其 他 哈 希 表 相 
似 的 〈 键 ， 值 ) 对 查询 功能 ， 每 个 节点 都 可 以 检索 到 与 给 定 键 相 关联 的 值 。 在 基于 DHT 的 P2P 
网 络 中 ， 从 键 到 值 的 映射 在 节点 间 以 分 布 式 的 方式 实现 。 任 何 节点 的 加 入 和 离开 对 整个 P2P 网 
络 产生 很 小 的 改变 。 高 效 的 DHT 设计 需 扩 展 到 非常 大 的 标识 空间 ， 如 2” 或 更 大 到 2, 

DHT 使 用 一 致 哈 希 (consistent hashing) 把 键 映射 到 节点 。 一 致 哈 希 可 以 定义 两 个 节点 之 间 
的 邻近 性 或 者 距离 ， 键 被 映射 到 标识 空间 中 与 其 最 邻近 的 节点 。 当 一 个 节点 加 入 或 者 离开 时 ， 利 
用 一 致 哈 希 重新 安排 键 ， 从 而 达到 对 现 有 节点 影响 较 小 的 目的 。 对 于 由 个 节点 个 键 组 成 的 系 


第 8 章 ”对 等 计算 和 覆盖 网 络 349 


统 ， 每 个 节点 以 大 概率 最 多 负责 (1 +e)/n 比例 的 标识 空间 ， 其 中 & = 0(log n)。 一 个 节点 加 入 
或 者 离开 仅 需 要 重新 分 配 0(1/n) 比例 的 键 。 因 此 ，DHT 适用 于 节点 加 入 和 离开 频繁 的 P2P 
系统 。 

DHT 提供 两 个 原 语 操 作 : put(key, data) 和 get( key), pu 原 语 把 数据 或 者 数据 索引 存储 到 
与 其 键 hey 最 近 的 节点 上 ， 而 get 原 语 则 检索 存储 hey 代表 的 数据 或 者 数据 索引 的 节点 。 所 有 对 等 
节点 形成 一 个 覆盖 网 络 。 每 个 节点 保持 与 其 他 节点 子 集 的 若干 链接 。 检 索 标 识 丰 的 键 的 ge 请 求 
被 转发 给 履 盖 网 络 中 距离 最 近 的 节点 ， 直 到 到 达 整 个 网 络 中 距离 最近 的 节点 。 

基于 DHT 的 P2P 网 络 包 括 BitTorrent 的 分 布 式 跟踪 服务 (tracker), Bitcoin 货币 网 络 、Kad 网 
络 、Storm Botnet, YaCy 和 Coral 内 容 分 发 网 络 。 一 些 代表 性 的 研究 项 目 包括 Chord MH, PAST 
存储 工具 、 自 组 织 新 型 覆盖 网 络 P-Grid， 以 及 使 用 DHT 构建 覆盖 网 络 的 CoopNet 内 容 分 发 系统 。 
DHT 也 被 用 在 网 络 计算 系统 中 的 资源 发 现 ， 以 搜索 匹配 用 户 应 用 层 需求 的 合适 资源 类 型 。 

DHT 部 署 | 

DHT 作为 基础 提供 两 种 原 语 ， 其 核心 思想 是 把 节点 和 键 映 射 到 标识 空间 并 把 键 分 配给 近 距 
离 的 节点 。DHT 能 够 实现 快速 搜索 ， 而 且 这 种 搜索 具有 可 证 明 的 搜索 时 间 上 限 。 此 外 ，DHT 覆 
盖 网 络 避 免 了 泛 洪 造成 的 大 量 搜索 成 本 ， 具 有 更 好 的 可 扩展 性 。 需 要 说 明 的 是 ， 基 于 DAT 的 
PP 覆 善 网 络 仅 直 接 支持 精确 匹配 搜索 ， 而 不 支持 关键 字 搜索 。 图 8-13 给 出 了 DHT 在 P2P 应 用 
中 的 作用 一 一 它 作 为 用 户 应 用 和 互联 网 之 间 映 射 的 中 间 件 存在 。 


P2P 
电子 邮件 


P2P 应 用 层 






P2P 底 层 
( 自 组 织 覆盖 网 络 ) 


互联 网 


图 8-13 DHT 在 快速 、 安 全 搜索 和 其 他 互联 网 应 用 中 的 运用 


8.2.3 结构 化 P2P 覆盖 网 络 
在 一 个 环 状 结构 的 覆盖 网 络 中 ， 每 个 节点 有 两 个 邻居 : 沿 着 环 状 结构 的 前 驱 和 后 继 节 点 。 如 
果 节 点 A 插入 到 B 和 C 之 间 ， 那么 A 的 邻居 就 是 B 和 C。 在 树 状 结构 的 覆盖 网 络 中 ， 节 点 与 它 
的 父 节 点 和 孩子 节点 建立 邻居 关系 。 虽 然 任 何 具 有 逮 辑 上 事先 定义 结构 的 P2P 覆盖 网 络 都 可 以 
称 为 结构 化 覆盖 网 络 ， 但 是 通常 来 说 ， 结 构 化 覆盖 网 络 是 基于 DHT 的 。 
结构 化 P2P 网 络 使 用 全 局 统一 的 协议 来 保证 任何 节点 都 能 够 高 效 路 由 搜 到 拥有 所 需 文件 的 
节点 ， 无 论文 件 是 稀缺 的 还 是 拥有 大 量 副 本 ， 这 就 要 求 覆 盖 网 络 链接 具有 更 多 结构 化 模式 。 最 常 
见 的 结构 化 P2P 网 络 是 DHT 覆盖 网 络 。 
。 分 布 式 哈 希 表 : 使 用 分 布 式 哈 希 实现 键 查询 ， 失 去 了 数据 的 局 部 性 ， 但 避免 了 泛 洪 查询 。 
代表 性 例子 有 Tapestry, Pastry, Chord 和 CAN, 
。 树 状 结构 系统 : 树 状 结构 的 层次 化 数据 访问 维持 了 数据 的 局 部 性 。 代 表 性 例子 是 TerraDir 
系统 。 
s 基于 跳跃 表 的 系统 : 通过 键 排序 而 不 是 键 查 找 来 加 快 查 询 处 理 ， 例 子 包括 跳 幅 图 和 SkipNet。 
P2P 系统 中 节点 随机 选择 邻居 节点 ， 造 成 覆盖 网 络 拓扑 和 物理 网 络 的 不 匹配 ， 位 置 感知 或 者 
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网 络 邻近 性 感知 方法 通过 让 节点 根据 物理 网 络 上 的 位 置 来 选择 覆盖 网 络 上 的 邻居 来 解决 拓扑 不 
匹配 问题 。 然 而 在 基于 DHT 的 结构 化 PP 覆盖 网 络 中 ， 节 点 的 邻居 并 不 是 从 覆盖 网 络 中 所 有 和 节 
点 随机 选择 出 来 的 ， 而 是 从 那些 标识 满足 一 定 要 求 的 节点 中 选 出 来 的 ， 因 此 结构 化 P2P 覆盖 网 
络 中 的 位 置 感知 更 加 困难 。 增 加 和 移 除 节点 仅 需 少量 的 操作 ， 这 促进 了 DHT 的 大 规模 部 署 。 基 
于 DHT 的 覆盖 网 络 有 不 同 的 结构 ， 因 此 就 有 不 同 的 结构 化 PP 系统 ， 如 Chord, Pastry, CAN 和 
Kademlia 等 。 本 节 主 要 介绍 这 些 结构 化 P2P 系统 的 结构 。 表 8-3 总 结 并 对 比 了 三 种 结构 化 P2P 网 
os, Sop n fa P2P 网 络 中 节点 的 数目 ，Pastry 中 的 数字 2° 是 标识 空间 的 基 ，log 表示 是 以 2 为 
底 的 。 


表 8-3 三 种 结构 化 P2P 覆盖 网 络 对 比 








LELE Pastry! 
saat aKING, EES _ 2 为 基 的 标识 空间 把 节 
标识 空间 其 他 距离 间隔 之 内 的 节点 连接 点 划分 到 嵌 套 的 邻近 组 
路 由 状态 log n 2d 2 x2°log.n 
查询 协议 映射 数据 键 到 节点 标识 BATER d 维 坐标 的 一 个 点 |。 映射 键 和 节点 标识 前 级 
路 由 复杂 度 O(log n) O(d xn”) Ol login) 
加 入 /离开 操作 所 | d logan 
需 消息 数 | 





DHT 系统 的 一 个 例子 是 将 在 例 8. 6 介绍 的 Chord, m 位 的 标识 空间 以 2” 为 模 映 射 到 单 向 逻辑 
环 状 结构 上 ， 标 识 id, 到 标识 id, 的 距离 用 它们 之 间 沿 顺 时 针 方向 的 间隔 来 计算 。 节 点 在 环 状 结 
构 上 的 位 置 由 其 标识 确定 。 标 识 为 id, 的 节点 存储 那些 键 标识 落 在 其 直接 前 驱 和 它 之 间 的 区 域 的 
数据 或 数据 索引 。 每 个 节点 有 普 个 到 其 他 节点 的 弦 链 接 ， 其 中 第 iL0<i<m -1) 个 节点 的 标识 
是 (x +2)mod 2” 的 直接 后 继 。 

例 8.6 Chord 系统 : 基于 环 状 结构 的 DHT 系统 

Chord 是 一 种 典型 的 DHT 系统， 它 把 节点 组 成 一 个 单 向 环 状 结构 ， 并 使 用 纺 链 接 来 实现 可 扩 
Riig Rl, Chord 使 用 SHA-1 作为 基本 的 哈 希 函数 ， 把 节点 和 键 映 射 到 同一 个 m 位 的 标识 空 
间 。 节 点 的 标识 (ID) 由 其 IP 地 址 哈 希 得 到 ， 而 键 的 ID 则 由 数据 键 哈 希 得 到 ， 标 识 以 2m 为 模 
映 到 环 状 结构 上 。 如 前 所 述 ， 一 个 节点 负责 从 其 前 驱 ID 到 自己 IJD 之 间 的 环 状 区 域 ， 即 如 果 数 据 
(或 者 其 索引 ) 映射 到 该 环 状 区 域 ， 那 么 它们 将 被 保存 到 这 个 节点 上 。 

节点 除 维护 环 状 结构 上 的 前 驱 和 后 继 外 ， 还 维护 一 个 指针 表 (finger table) ， 其 中 的 每 一 项 
代表 一 个 由 该 节点 使 用 弦 来 链接 的 节点 。 具 体 来 说 ,第 i(0<i<m) 个 项 所 指 节点 的 标识 与 该 节 
点 在 环 状 结构 上 党 顺 时 针 方 向 的 标识 路 离 为 2 ， 其 中 mi 为 标识 长 度 。 图 8-14 给 出 了 由 7 个 节点 
组 成 的 4 位 标识 环 状 结构 以 及 节点 0 的 指针 表 。 节 点 6 距离 节点 0 是 2?。 虽 然 节 点 的 指针 表 由 到 
项 组 成 ， 但 是 平均 来 说 ， 仅 包含 O(log n) 个 不 同 节点 的 信息 ， 其 中 于 为 搜索 空间 中 总 节点 数目 。 

在 图 8-14 中 ， 节 点 0 的 指针 表 有 4 项 ， 一 个 节点 指针 表 的 第 Lm -log nj」 项 与 它 的 距离 为 
2"/n。 因 为 节点 是 随机 分 布 在 标识 环 上 的 ， 在 大 小 为 2"/n 的 标识 区 域内 平均 仅 有 一 个 节点 ， 所 
以 平均 而 言 ， 节 点 指针 表 中 的 节点 数目 为 OC(m 一 Lm 一 logn|+1) = O(log n) 。 基 于 DHT 的 搜索 
通常 用 于 定位 较 少 副本 的 文件 。 

为 了 提高 鲁 棒 性 ， 节 点 还 维护 一 个 后 继 列 表 ， 该 表 由 从 其 直接 后 继 节 点 开始 沿 环 状 结构 向 
下 。 如 果 当 前 后 继 失 效 ， 节 点 使 用 列表 中 第 一 个 活跃 的 表 项 代理 。 标 识 为 站 的 新 节点 与 引导 节 
点 联系 ， 引 导 节 点 负责 把 加 入 消息 转发 到 天 的 前 驱 节 点 了 ， 新 节点 作为 了 的 后 继 加 入 ， 而 了 修改 
其 后 继 为 全 并 为 了 准备 指针 表 。 那 些 需 要 在 指针 表 中 包含 至 的 节点 相应 地 更 新 其 指针 表 。 节 点 
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.的 加 入 和 离开 操作 需要 log 个 消息 。Chord 中 每 个 节点 使 用 周期 性 执行 的 稳定 程序 来 保持 后 继 
和 指针 表 的 更 新 。 a 





节点 0 的 指针 表 
图 8-14 使 用 16 个 键 搜索 空间 组 成 的 Chord 网 络 的 例子 。 指 针 表 建立 了 位 于 不 同 区 域 节点 之 间 的 链接 


例 8.7 CAN 系统 : 多 维 网 状 体系 结构 
CAN (Content Addressable Network ， 内 容 可 寻 址 网 络 ) 在 虚拟 的 台 维 笛 卡 儿 坐 标 空间 中 组 织 
节 上 点。 坐标 空间 被 动态 分 割 为 n 个 不 相交 的 区 域 ， 每 个 节点 负责 一 个 区 域 ,其 中 及 为 节点 的 数 
目 。 图 8-15 给 出 了 一 个 包含 5 个 节点 的 二 维 坐 标 空 间 。 节点 存储 其 邻居 节点 的 信息 (BY IP debe 
和 它们 负责 的 区 域 信 息 ) 作为 该 节点 的 路 由 表 。 两 个 节点 互 为 邻居 是 指 这 两 个 节点 在 (d -1) 
个 坐标 方向 上 重 登 且 在 一 个 坐标 方向 上 相 邻 。 500 
在 图 8-15a 中 ,节点 B 和 C 是 节点 A 的 邻居 ， 但 节点 D 并 不 是 节点 A 的 邻居 。 键 通过 均 义 
哈 希 函数 被 映射 到 坐标 空间 中 ， 每 个 数据 键 由 一 个 代表 其 在 坐标 空间 中 位 置 的 d 维 向 量 组 成 。 如 
果 数 据 键 在 坐标 空间 中 的 位 置 落 在 了 节点 i 负责 的 区 域 ， 那么 节点 i 存储 指向 与 该 键 相关 的 对 象 
的 指针 或 者 对 象 本身 。 在 d 维 坐 标 空间 中 ,每 个 节点 平均 有 2d 个 邻居 ， 而 路 由 复杂 度 为 
O((d/4)(n')) 。 


(0.5~0.75, 0.5~1) 






B 7 DA 
(0-0.5, 0.5~1) , / 





a) CAN 体 系 结构 b ) CAN 中 的 路 由 
图 8-15 通过 重复 分 割 二 维 坐标 空间 而 构成 的 CAN 网 络 及 其 路 由 过 程 
注 ; 由 S. Ratnasamy, P, Francis 和 R. Karp[40] 提供 。 
新 节点 下 借助 DNS 服务 来 获得 引 SHARES, NRA 向 新 节点 提供 覆盖 网 络 中 随机 选择 
的 一 些 节点 的 地 址 信息 。 新 节点 在 坐标 空间 中 随机 选择 一 个 位 置 P 作为 其 加 入 位 置 ， 并 请 求 已 
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在 系统 中 的 一 个 节点 路 由 其 加 入 消息 ， 最 终 消 息 转发 到 拥有 P 了 所 在 区 域 的 节点 了 Y。 节 点 了 把 其 负 
责 的 区 域 分 为 大 小 相同 的 两 个 部 分 ， 并 把 其 中 一 部 分 划分 给 新 来 的 节点 。 

CAN 使 用 了 一 种 贪 禁 路 由 算法 。 节 点 贪 禁 地 选择 其 邻居 中 距离 目的 节点 最 近 的 节点 转发 消 
息 。 图 8-15b 给 出 了 在 一 个 二 维 CAN 覆盖 网 络 中 从 节点 C 到 节点 HH 的 路 由 路 径 。 在 一 个 d 维 坐 标 
的 CAN 覆盖 网 络 中 ， 平 均 每 个 维度 有 ms 个 节点 ， 而 任意 两 个 节点 之 间 平 均 有 1/4m 个 节点 。 由 于 
路 由 过 程 中 消息 需要 经 过 d 维 空间 中 的 每 一 个 维度 上 的 节点 ， 因 此 路 由 复杂 度 为 O((d/4)(n”“))。 

E 
8.2.4 混合 式 履 盖 网 络 

混合 式 P2P 覆盖 网 络 同时 具有 无 结构 和 结构 化 覆盖 网 络 的 特征 。 通 常 有 两 种 方法 来 建立 混 
合 覆 盖 网 络 。 第 一 种 是 在 无 结构 覆盖 网 络 上 增加 结构 化 覆盖 网 络 ， 例 如 ， 在 Gnutella 覆盖 网 络 上 
HLA Chord, Gnutella 中 的 泛 洪 搜索 协议 适用 于 定位 具有 很 多 副本 的 文件 ， 但 对 于 那些 副本 很 少 
的 文件 ， 泛 洪 搜索 方法 需要 很 长 的 时 间 ， 甚 至 根本 无 法 返回 结果 。 混 合 P2P 覆盖 网 络 通常 保留 
每 种 覆盖 网 络 的 主要 组 件 ， 而 次 要 组 件 则 以 无 开销 方法 获得 。 在 图 8-16 中 ，Pastry 节点 的 路 由 表 
由 基于 兴趣 的 覆盖 网 络 的 集群 来 提供 ， 而 基于 兴趣 的 覆盖 网 络 中 的 全 局 随机 节点 信息 由 Pastry 的 
叶子 节点 集 提供 。 这 样 就 节省 了 为 构建 Pastry 节点 路 由 表 而 需 进行 的 邻近 节点 定位 操作 带 来 的 


基于 兴趣 的 覆盖 网 络 基于 兴趣 的 覆盖 网 络 
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例 8.8 KaZaA 网 络 : 使 用 超级 节点 构造 骨干 覆盖 网 络 

KaZaA 把 节点 组 成 两 层 的 层次 化 结构 (如 图 8-17 所 示 ) ， 上 层 由 计算 能 力 强 、 带 宽大 和 扩展 
性 好 的 超级 节点 组 成 ， 而 下 层 由 普通 的 轻 量 级 节点 组 成 ， 每 个 普通 节点 与 一 个 超级 节点 连接 。 超 
级 节点 作为 与 其 连接 的 普通 节点 的 中 心 : 普通 节点 向 其 超级 节点 上 传 每 个 被 请 求 文件 的 文件 名 、 
内 容 哈 希 和 文件 描述 。 超 级 节点 维护 与 它 连接 的 普通 节点 的 文件 索引 ， 并 向 普通 节点 提供 一 个 
超级 节点 列表 ， 该 列表 最 多 包含 200 个 超级 节点 。 























超级 节点 


普通 节点 


图 8-17 由 超级 节点 构成 骨干 覆盖 网 络 的 KaZaA 体系 结构 
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在 2006 Æ, KaZaA 系统 中 300 多 万 用 户 共享 了 超过 3000TB 的 数字 内 容 ， 包括 MP3、 视 频 和 和 
游戏 等 。 一 度 有 50% 的 互联 网 流量 是 由 KaZaa 应 用 产生 的 。 普 通 节 点 和 超级 节点 平均 连接 时 间 
为 56 分 钟 ， 每 个 超级 节点 有 100 ~150 个 孩子 (普通 节点 ) 。 系 统 共 有 约 3 万 个 超级 节点 ， 每 个 
超级 节点 使 用 TCP 连接 与 其 他 30 ~50 个 超级 节点 和 连接。 系统 不 是 全 连接 的 。 每 个 超级 节点 约 和 
0. 1% 的 超级 节点 连接 ， 两 个 超级 节点 连接 的 平均 时 间 约 为 23 分 钟 。 

超级 节点 作为 与 其 连接 的 普通 节点 的 中 心 ， 保存 它 们 的 内 容 和 了 P 地 址 信息 。 普 通 节 点 缓存 
一 个 超级 节点 列表 ， 每 个 超级 节点 用 其 四 地址 、 端 口号 、 时 间 蕉 和 类 似 的 数据 代表 。 该 列表 在 
节点 引导 或 者 失效 恢复 时 使 用 。KaZaA 对 其 信 令 消息 进行 了 加 密 。 查 询 消息 首先 提交 给 超级 节 
点 ， 如 果 超 级 节点 有 匹配 的 文件 ， 那 么 超级 节点 直接 回复 ; 否则 ， 超 级 节点 使 用 TIL 受 限 的 泛 
洪 把 查询 转发 给 其 他 超级 节点 。KaZaA 使 用 UUHash 唯一 标识 文件 ， 用 户 使 用 该 标识 同时 从 多 个 
节点 请 求 文件 以 实现 并 行 下 载 。 

UUHash 使 用 MDS 哈 希 文件 的 前 300KB， 生 成 一 个 128 位 的 哈 希 值 ， 然 后 使 用 smallhash 函数 
对 每 2” MB 块 的 前 300KB 进行 哈 希 运算 ， 其 中 垩 是 一 个 从 0 开始 的 整数 。smallhash 函数 产生 32 
位 的 蛤 希 值 。MD5 哈 希 值 各 smalihash 哈 希 值 连接 生成 160 位 的 文件 标识 。 从 前 面 的 叙述 可 以 看 
出 ，UUHash 仅 哈 希 文件 的 一 部 分 。 这 就 导致 用 户 可 以 修改 文件 的 大 部 分 内 容 但 仍 可 保持 UUHash 
标识 不 变 。 版 权 侵犯 仍 是 KaZaA 面临 的 一 个 严峻 问题 ， 针 对 超级 节点 的 DDoS 和 文件 污染 都 曾经 
发 生 过 。 

当当 前 服务 器 失效 时 ，KaZaA 系统 可 自动 为 节点 切换 到 新 的 下 载 服务 器 ， 系 统 还 为 用 户 提 供 
预计 下 载 时 间 。 超 级 节点 是 相对 稳定 的 ， 因 此 节点 动态 对 系统 影响 不 大 。 即 使 是 转发 VoIP 流量 ， 
超级 节点 的 带宽 消耗 都 很 小 。 两 层 结 构 考虑 了 节点 在 能 力 上 的 差异 ， 而且 便于 使 用 网 络 邻 近 性 
感知 把 昔 通 节点 分 配给 邻近 的 超级 节点 。 泛 洪 仅 仅 在 覆盖 网 络 上 层 进 行 ， 从 而 提高 了 可 扩展 性 ， 
但 是 仍然 不 能 对 搜索 范围 和 搜索 时 间 提 供 实际 保证 。 a 

618.9 Æ Gnutella 网 络 上 嵌入 Chord 

图 8-18 给 出 了 在 Gnutella HAZ ERA Chord 后 的 混合 体系 结构 。 对 于 任意 查询 ， 只 要 系统 
中 存在 匹配 的 文件 ， 基 于 DHT 的 Chord 可 以 在 儿 和平 相 同 的 时 间 返 回 结果 。 因 此 ，Chord 非常 适用 
于 对 副本 少 的 文件 进行 查询 。 





© Gnutella 叶 节点 (U) Gnntella 超 级 节点 ”一 一 Gnutella 链 路 ”一 一 Chord 链 路 
(HB) 混合 超级 节点 (Chord + Gnutella ) 


图 8-18 Gnutella 和 Chord 的 混合 P2P 体系 结构 
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对 副本 很 多 的 文件 的 查询 ， 并 不 能 快速 返回 结果 。 在 Gnutella 0. 6 版 本 中 ， 一 部 分 能 力 强 的 
节点 (超级 节点 ) 被 选 作 普 通 节 点 ( 叶 节 点 ) 的 中 心 。 此 时 ， 对 于 副本 多 的 文件 的 查询 ， 使 用 


泛 洪 方法 来 转发 消息 ， 而 对 于 副本 少 的 文件 的 查询 ， 则 使 用 Chord 搜索 协议 来 查询 。 这 样 对 各 种 
类 型 的 查询 都 可 以 快速 响应 。 = 
履 盖 网 络 复杂 度 分 析 


表 8-4 总 结 了 5 种 P2P 网 络 的 功能 和 复杂 度 特 征 。 这 5 种 P2P 网 络 是 自 组 织 的 ， 不 支持 节点 
异 构 ， 不 能 保持 数据 的 局 部 性 。 采 用 统一 路 由 ，Chord 和 CAN 都 很 容易 破坏 数据 局 部 性 。 只 有 
Chord, CAN 和 SkipNet 支持 网 络 邻近 性 。 除 Gnutella 外 ， 其 他 4 种 网 络 都 能 保证 确定 性 搜索 结 
Ro Gnutella 是 基于 随机 图 的 ，Chord 构建 于 带 有 弦 的 环 状 标识 空间 ， 并 使 用 指针 表 来 确定 数据 
的 直接 后 继 。 
CAN 基于 多 维 备 卡 儿 空间 ，TerraDir 是 树 状 数据 层次 结构 ，SkipNet 则 使 用 分 布 式 跳跃 表 。 
Gnutella 的 最 大 优势 在 于 常数 节点 状态 和 节点 加 入 时 间 , 但 其 路 由 时 间 最 长 ,为 O(n), Gnutella 
使 用 的 泛 洪 搜 索 方法 代价 大 ,但 容错 能 力 好 。 其 他 4 种 网 络 通 过 副本 技术 来 实现 容错 。Chord 和 
SkipNet 的 路 由 复杂 度 为 O(log n), Tit TerraDir 的 路 由 时 间 和 树 的 高 度 (h) 成 正比 ，CAN 的 维 数 
d 影响 着 其 性 能 。 


表 8-4 5 种 P2P 覆盖 网 络 复杂 度 特 征 比较 



































































































































Gnutella!®! Chora!**! TerraDir SkipNet 
覆盖 网 络 结 构 环 状 标识 空间 | 多维 笛 卡 儿 空间 | 树 状 数据 层次 | 分 布 式 哎 聊 表 
设计 参数 N/A r: 直接 后 继 d: 维 数 N/A N/A 
O(n), 
路 由 跳 数 OWN) O(log N) O( dN?) a h Ki O(log N) 
节点 状态 0(1) O(log N) O(2d) O(2log N) 
节点 加 入 001) O(log N) 0(2d) O(log N) 
分 割 空间 、 区 
负载 均衡 和 减 通过 一 致 哈 希 l 一 致 哈 希 对 象 名 的 
piaba N/A abate DEMAM A| 通过 缓存 和 副本 |， 
存 和 副本 
ene 向 其 他 活路 节 er ere 在 0 REREH, 
AEN 用 层 副 本 BKR 在 边界 恢复 失效 节点 
节点 路 由 
l 以 低 延 迟 邻 近 | 拓扑 感知 的 覆盖 通过 了 表 和 C 表 实 
网 络 邻近 性 | F 路 由 到 指针 后 继 | 网络 和 邻近 路 由 | 无 现 邻近 邻居 选择 
| 无 , 但 可 以 根 
节点 异 构 支持 | 无 Eaa [ET A Me t k 无 x 
i 例 划分 坐标 区 域 
| 
自 组 织 | 是 是 | 是 | 是 “| 是 
保证 确定 性 搜 | 无 ， 只 能 在 广 
RAR 播 范围 内 保证 是 是 是 是 
Z, 被 均匀 险 | 无， 被 均匀 险 
数据 局 部 性 | a nok 是 | 是 
， an 以 数据 为 中 心 
应 用 N/A crs ieee 资源 发 现 全 局 事件 通知 服务 
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8.3 路 由 、 邻 近 性 和 容错 


本 节 将 讨论 P2P 系统 的 两 个 基本 技术 ， 即 路 由 和 局 部 性 感知 。P2P 系统 是 由 对 等 节点 组 成 的 
分 散 的 自 组 织 覆 盖 网 络 。 路 由 算法 计算 如 何 从 一 个 节点 到 达 另 一 个 节点 ， 应 该 是 分 布 式 的 且 仅 
依赖 于 整个 系统 本 地 视图 中 的 节点 。 局 部 性 感知 又 称 为 网 络 邻近 性 感知 ， 它 使 得 对 等 节点 与 其 
物理 上 邻近 的 节点 相连 ， 以 便 减 小 平均 覆盖 网 络 链 路 延迟 和 骨干 网 带宽 消耗 。P2P 覆盖 网 络 是 非 
正式 的 。 因 此 ， 系 统 需 要 相应 的 机 制 来 容忍 和 恢复 节点 的 失效 和 斯 开 。 
8.3.1 P2P 覆盖 网 络 的 路 由 

在 无 结构 P2P 覆盖 网 络 中 ， 因 为 节点 的 邻居 是 不 受 任 何 限制 而 随机 选择 的 ， 所 以 无 法 定位 
一 个 特定 的 节点 ， 而 其 中 的 路 由 算法 通常 是 基于 泛 洪 的 。 当 一 个 节点 A 从 邻居 节点 B 收 到 消息 
后 ， 它 简单 地 把 消息 转 给 发 除 B 以 外 的 所 有 邻居 。 在 一 个 由 tp EME (BBR) 为 上 的 
节点 组 成 的 覆盖 网 络 中 ， 定 位 一 个 节点 平均 需要 使 用 =”( -1) 个 消息 。 因 为 消息 是 按照 最 短路 
径 从 源 到 达 目 的 节点 的 ， 所 以 路 由 复杂 度 〔 即 从 任意 节点 到 达 某 个 特定 节点 所 需 的 覆盖 网 络 跳 
数 ) 直接 由 覆盖 网 络 图 的 直径 决定 。 基 于 小 世界 图 的 覆盖 网 络 直径 小 ， 路 由 复杂 度 低 。 
Freenet” 就 是 这 样 一 种 覆盖 网 络 。 

例 8. 10 Freenet: 一 种 无 结构 P2P 网 络 

Freenet 是 一 种 分 散 存储 服务 ， 可 以 提供 良好 的 匿名 性 且 可 免 于 审查 。Freenet 允许 一 个 节点 
威 为 任意 其 他 节点 的 邻居 ， 是 一 种 无 结构 覆盖 网 络 。 每 个 节点 向 系统 贡献 部 分 存储 空间 。 节 点 和 
文件 使 用 哈 希 函数 映射 到 同一 标识 空间 ， 文 件 被 加 密 后 存储 在 节点 D 距离 其 文件 名 最近 的 节点 
上 。 文 件 会 被 分 割 为 多 个 块 ， 为 了 提供 完 余 可 能 会 增加 一 些 额 外 的 文件 块 ， 每 个 块 由 分 布 式 节点 
独立 处 理 。 

Freenet 使 用 基于 键 的 路 由 协议 来 定位 请 求 的 文件 ， 文 件 的 发 布 者 和 阅读 者 对 外 都 被 隐藏 起 
来 。 一 个 节点 上 保存 的 数据 文件 组 成 一 个 数据 存储 栈 ， 如 图 8-19 举 
倒 所 示 。 栈 分 为 两 个 部 分 ， 顶 部 存储 键 、 下 一 跳 节 点 的 引用 和 数据 ， spoe 
而 底部 仅仅 存储 键 和 节点 的 引用 。 当 收 到 新 文件 的 播 入 请 求 时 ， 节 
点 在 栈 的 顶部 存储 文件 和 其 信息 。 如 果 栈 满 了 ， 根 据 最 近 最 少 使 用 
(Least Recent Used, LRU) 原则 把 日 的 表 项 替换 出 去 。 和 和 Gnutella 不 
E, Æ Freenet 中 ， 即 使 文件 的 发 布 者 离开 网 络 ， 它 发 布 的 文件 仍然 





是 可 用 的 。 | 
Freenet 中 的 路 由 过 程 和 也 路 由 类 似 。 存 储 模 则 作为 节点 的 路 由 图 8-19 Freenet 中 节点 的 
表 。 当 节点 收 到 键 为 上 的 文件 查询 ， 它 首先 检查 路 由 表 ， 如 困 忆 可 以 数据 存储 栈 举例 


在 其 路 由 表 中 找到 ， 该 节点 停止 转发 请 求 ， 并 治 请 求 被 转发 的 反 向 路 径 返 回 结果 ; 否则 ， 节 点 从 
其 路 由 表 下 一 跳 域 中 找 出 与 大 最 接近 的 表 项 ， 并 把 请 求 转发 给 该 表 项 所 指 的 节点 。 请 求 能 够 转发 
的 范围 是 受 TTL 限制 的 ， 如 果 在 TTL 超时 时 数据 仍然 没有 搜索 到 ， 那 么 查询 失败 。 如 果 找 到 数 
据 ， 则 查询 路 径 上 的 每 个 节点 缓存 搜索 到 的 数据 。 

在 Freenet 中 插入 数据 的 过 程 与 上 述 搜索 过 程 相似 : 被 插入 的 数据 将 沿 到 达 目 标 节 点 的 路 径 
缓存 到 每 个 节点 。 从 上 面 的 过 程 可 以 看 出 ， 数 据 文件 请 求 越 多 ， 其 副本 也 就 越 多 。 请 求 发 起 者 可 
能 与 返回 结果 的 节点 连接 ， 并 且 断 开 与 那些 最 近 最 少 使 用 节点 的 连接 ， 这 个 过 程 称 为 路 径 折 查 
(path folding) 。 路 径 折 下 导致 聚 类 结构 的 形成 ,使 得 Freenet 的 简单 路 由 协议 非常 有 效 。 当 消息 
在 网 络 中 转发 时 ， 其 源 地 址 会 被 随机 修改 从 而 达到 匿名 的 效果 。 a 

基于 DHT 的 结构 化 覆盖 网 络 有 严格 的 、 事 先 定义 好 的 结构 ， 这 有 利于 消息 的 路 由 。 每 个 节 


点 被 赋予 一 个 全 局 唯一 标识 。 路 由 的 过 程 就 是 逐渐 减少 消息 处 理 节点 到 目的 节点 在 标识 空间 上 
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的 距离 。 尽 管 不 同 结构 的 覆盖 网 络 有 不 同 的 路 由 协议 , 但 路 由 复杂 度 通 常 在 0(log n) 跳 ， 其 中 
n 是 节点 的 数目 。 下 面 将 举例 介绍 结构 化 P2P 覆盖 网 络 的 路 由 算法 。 
例 8.11 基于 DHT 的 Chord 网 络 的 表 查 询 路 由 
Chord 覆盖 网 络 依赖 于 指针 表 实 现 高 效 路 由 ， 当 节点 x 收 到 一 个 目的 地 为 y 的 消息 后 ， 它 把 
该 消息 转发 给 指针 表 中 最 接近 y 的 节点 。 为 了 实现 上 述 操 作 ， 节 点 x 反 向 检查 其 指针 表 ， 第 一 个 
标识 小 于 节点 y 标识 的 表 项 将 作为 消息 的 下 一 跳 。 例 如 ， 在 图 8-20 所 示 的 Chod 系统 中 ， 标 识 空 
间 大 小 为 16， 已 有 7 个 节点 加 入 ， 节 点 0 到 节点 8 的 最 小 路 由 路 径 是 经 过 节点 6。 





: 
节点 0 的 指针 表 


图 8-20 Chord 覆盖 网 络 中 的 表 查 询 路 由 举例 


Chord 的 路 由 复杂 度 为 O(log n)， 其 中 风 为 节点 的 数目 。 假 定 节点 x 选择 了 其 路 由 表 中 的 第 i 
项 所 指 节点 z 作为 下 一 跳 节点 ， 那 么 节点 z 作 与 x 在 标识 空间 上 的 距离 至 少 为 2。 由 于 % 指针 表 
的 第 i+1 项 标识 不 小 于 目的 节点 y 的 标识 ， 因 此 ， 节 点 y 与 x 在 标识 空间 上 的 距离 最 多 为 2”。 
也 就 是 说 ， 节 点 x 与 节点 y 的 距离 至 少 与 节点 z 和 yy 之 间 的 距离 相等 ， 即 节点 z 把 节点 x Sy ZH 
的 距离 减 半 ， 处 在 两 个 节点 的 中 间 。 节 点 z 重复 与 x 相同 的 操作 ,在 经 过 log n 跳 后 ,处理 消 息 
的 节点 与 目的 节点 的 距离 等 于 2"/n， 其 中 m 为 标识 长 度 。 由 于 节点 在 标识 空间 上 随机 分 布 , 平 
均 来 说 在 大 小 为 2"/n 的 标识 区 域内 只 有 一 个 节点 。 = 
8.3.2 P2P 覆盖 网 络 中 的 网 络 邻近 性 

P2P 覆盖 网 络 是 构建 于 卫 网 络 上 的 逻辑 结构 ， 尽 管 基 于 随机 图 的 覆盖 网 络 具 有 良好 的 容错 
能 力 和 较 低 的 直径 ， 但 这 样 的 覆盖 网 络 忽 略 了 IP 网 络 上 的 网 络 邻 近 信息 ， 从 而 导致 物理 上 邻近 
的 节点 在 覆盖 网 络 上 彼此 相距 很 远 ， 而 覆盖 网 络 上 邻近 的 节点 在 物理 网 络 上 彼此 也 相距 很 远 。 
这 种 现象 称 为 拓扑 不 匹配 ， 结 构 化 PP 覆盖 网 络 同样 存在 该 问题 。 比 如 CAN 网 络 〈 例 8.7， 图 
8-15b) ， 如 果 节 点 C 和 EE 属于 同一 自治 系统 ， 而 A 和 G 属于 另外 一 个 自治 系统 ， 从 C 到 G 的 消 
息 将 在 两 个 自治 系统 之 间 的 链 路 上 传输 3 次 ， 不 可 避免 地 增加 了 延迟 且 消 耗 了 不 必要 的 网 络 
带宽 。 

507 对 于 结构 化 PP 覆盖 网 络 来 说 ， 节 点 的 邻居 选择 是 严格 受 其 结构 限制 的 ， 根 据 网 络 邻近 性 
感知 原则 优化 它们 是 比较 难 的 。 在 结构 化 P2P 覆盖 网 络 中 ， 有 三 种 方法 来 实现 网 络 邻 近 性 : 地 
理 布局 、 邻 近 路 由 和 邻近 邻居 选择 。 

8.3.2.1 地 理 布局 
节点 的 标识 不 再 是 随机 的 ， 物 理 邻 近 的 节点 拥有 相近 的 标识 ， 因 此 ， 它 们 在 覆盖 网 络 上 也 是 


O ”下 网 络 拓扑 和 覆盖 网 络 拓扑 不 匹配 。 一 一 译 者 注 
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邻近 的 。 因 为 很 多 结构 化 P2P 覆盖 网 络 (比如 Chord, Pastry, Tapestry) 是 依靠 节点 标识 的 随机 
化 来 保证 鲁 棒 性 和 性 能 的 ， 所 以 这 种 方法 仅 适 用 于 某 些 特定 的 覆盖 网 络 ， 如 CAN 等 。 例 如， 邻 
近 性 感知 的 CAN A 3a 2S OT LAB RE (landmark binning) 机 制 来 构建 。 在 这 种 情况 下 ，m 
个 全 局 可 访问 的 节点 作为 界 标 节 点 ， 其 他 节点 测量 与 界 标 节 点 的 距离 ， 并 按照 距离 大 小 升序 排 
列 ， 形成 界 标 节点 的 一 个 排序 。 该 排序 代表 节点 所 处 的 “ 艇 ”。 

物理 上 邻近 的 节点 可 能 属于 相同 或 者 相似 的 和 能， 而 CAN 著 盖 网 络 的 坐标 空间 被 划分 为 m! 
个 区 域 ， 每 个 艇 对 应 一 个 区 域 。 新 节点 在 其 所 处 的 簇 对 应 的 标识 区 域 中 随机 选择 一 个 点 加 入 ， 这 就 
达到 了 物理 上 邻近 的 节点 在 覆盖 网 络 上 相 邻 的 目标 。 然 而 ， 节 点 在 坐标 空间 上 不 再 是 随机 分 布 的 。 
在 这 种 覆盖 网 络 中 ， 一 小 部 分 节点 可 能 占据 大 部 分 的 标识 空间 ， 这 些 节 点 极 有 可 能 过 载 。° 

8.3.2.2 邻近 路 由 

在 P2P 网 络 中 ,任意 两 个 节点 之 间 通 常 存在 多 条 路 径 ， 如 在 例 8.7 (图 8-15b) 中 ， 节 点 C 
和 了 B 的 路 径 有 C-A-B 和 C-F-B。 邻 近 路 由 的 基本 思想 是 选择 延迟 最 小 的 路 径 。 但 是 在 分 布 式 覆 盖 
网 络 中 ， 找 到 这 样 的 路 径 的 复杂 度 与 旅行 商 问题 (Traveling Salesman Problem, TSP) 一 样 是 NP 
难 问题 。 一 种 启发 式 算法 是 每 个 节点 选择 最 近 的 邻居 作为 下 一 跳 节 点 来 转发 消息 ， 但 这 可 能 增 
加 路 由 路 径 长 度 。 例 如 ， 在 Chord 覆盖 网 络 中 ， 如 果 每 个 节点 选择 后 继 来 转发 消息 ， 那 么 路 由 复 
杂 度 为 0(n)， 所 以 对 下 一 跳 节点 的 选择 范围 需要 有 所 限制 。Pastry 网 络 就 是 邻近 路 由 最 好 的 例 
子 。 下 面 将 介绍 Pastry 路 由 。 

例 8. 12 Pasty: 基于 姓 套 组 的 邻近 路 由 覆盖 网 络 

Pastry 是 结构 化 覆盖 网 络 ， 标 识 空间 是 由 高 基数 字 来 编码 的 ， 其 目的 是 把 对 等 节点 再 分 为 带 
有 层次 小 组 的 嵌 套 组 。 在 同一 最 内 野 小 组 的 节点 是 非常 邻近 的 邻居 ， 称 为 邻近 小 组 。 覆 盖 网 络 使 
用 高 基 标 识 在 嵌 套 的 组 或 者 小 组 中 搜索 节点 。 例 如 ，128 位 的 标识 空间 可 定义 一 个 很 大 的 POP HE 
盖 网 络 ， 其 网 络 标识 是 以 16 ( 基 为 2 ,其 中 65=4) 为 基数 字 (如 65A1FC04) 的 ， 此 时 标识 被 
分 割 为 多 个 组 ， 而 每 个 组 有 16 个 小 组 。 

数据 存储 在 与 其 键 最 近 的 节点 上 ， 同 一 小 组 内 的 节点 知道 其 他 节点 的 地 址 ， 这 大 幅度 减少 
了 在 同一 邻近 组 内 的 搜索 时 间 。 此 外 ,每 个 节点 知道 车 干 个 其 他 组 的 代表 节点 。 每 个 节点 需要 知 
道 其 组 内 所 有 节点 的 IP 地 址 。 邻 近 路 由 用 来 实现 logwn 步 的 快速 搜索 ， 其 中 2 =16。 对 于 一 个 包 
含 2* 个 节点 的 网 络 来 说 ， 最 多 需要 4 (log 2°) 步 就 可 以 把 消息 在 16 个 组 之 间 路 由 ， 而 Chord 
则 需要 log, 2% =16。 

在 节点 失效 时 ，Pastry 无 疑 比 Chord 和 CAN 快 。 在 错误 恢复 期 间 ，Pastry 在 最 坏 情 况 下 需要 
O(n) 跳 路 由 消息 。 在 具有 适当 前 级 的 所 有 节点 标识 中 ， 每 个 路 由 表 项 指向 邻近 空间 中 与 本 地 节 
点 邻近 的 节点 。 在 某 种 程度 上 ，Pastry 具有 最 好 的 局 部 邻近 特性 。 邻 近 空 间 内 的 快速 搜索 使 得 
Pastry 非常 适合 在 很 大 规模 的 P2P 网 络 中 使 用 。Pastry 的 细节 可 在 文献 [21] 中 找到 。 a 

8.3.2.3 邻近 邻居 选择 

在 这 种 方法 中 ， 节 点 选择 物理 上 邻近 的 节点 作为 覆盖 网 络 上 的 邻居 。 在 结构 化 覆盖 网 络 中 ， 
节点 邻居 的 标识 需要 满足 一 定 的 限制 条 件 。 例 如 ， 在 Pastry 网 络 中 ， 节 点 x 路 由 表 的 第 i 行 所 指 
节点 必须 和 节点 x 的 标识 共享 i 个 数字 的 最 大 前 级。 该 方法 可 以 用 在 Chord 覆盖 网 络 中 ， 此 时 节 
点 % 指针 表 的 第 i 项 所 指 节点 的 标识 不 再 固定 为 (x +2 ) mod 2” (O<ism, m 是 标识 的 长 度 )， 
而 是 选择 在 标识 范围 [x +2 ,x +2"!] 内 且 物 理 上 最 邻近 的 节点 。 

这 种 改变 并 不 会 影响 路 由 复杂 度 。 界 标 簇 算法 是 估算 节点 在 物理 网 上 距离 的 常用 算法 。 假 
设 有 mw 个 具有 全 局 地 址 的 界 标 节点 ， 每 个 节点 测量 界 标 节点 的 距离 ， 得 到 m 维 的 向 量 ， 标 明了 


日 。、 因 为 需要 保存 大 量 映 射 到 所 负责 标识 区 域 的 数据 。 一 一 译 者 注 
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节点 在 m 维 界 标 空间 上 的 位 置 。 这 种 方法 的 理念 是 物理 上 邻近 的 节点 在 界 标 空 间 上 也 是 相 邻 的 。 
然后 使 用 空间 填充 曲线 技术 把 m 维 的 向 量 降 维 。 比 如 ， 就 Chord 来 说 ， 向 量 需 要 映射 到 一 维 的 数 
字 。 空 间 填 充 曲 线 保 持 了 邻近 信息 。 映 射 后 的 结果 按照 特定 的 协议 存储 在 覆盖 网 络 上 ， 以 便 其 他 
节点 查询 。 界 标 复 算法 是 粗 粒 度 的， 并 不 能 把 物理 上 很 近 的 节点 区 分 开 来 。 因 此， 需要 结合 使 用 
RTT (Round Trip Time) 测量 技术 。 

和 结构 化 覆盖 网 络 相 比 ， 无 结构 网 络 更 容易 按照 网 络 邻近 性 来 优化 ， 这 是 因为 节点 邻居 关 
系 更 灵活 ， 不 受 限 制 。 优 化 过 程 是 一 个 移 除 高 代价 覆盖 网 络 链 路 和 增加 低 代 价 链 路 的 过 程 ， 这 里 
的 关键 问题 是 如 何 识别 出 高 / 低 代 价 的 覆盖 网 络 链 路 并 以 分 散 的 方法 移 除 / 增 加 。 一 种 简单 的 方 
法 是 ， 每 个 节点 主动 测量 到 邻居 链 路 的 代价 〈 如 延迟 ) ， 如 果 高 代价 链 路 是 元 余 的 ， 则 断 开 它 
们 。 节 点 间 互 相 探测 以 找 出 更 近 的 节点 ， 并 建立 覆盖 网 络 连接 。 

8.3.3 容错 和 失效 恢复 
本 节 介 绍 P2P 网 络 的 容错 和 失效 恢复 技术 ， 这 些 技术 确保 PP 操作 在 错误 和 失效 的 条 件 下 
[509] 仍 能 够 顺利 执行 。 

8. 3.3.1 错误 和 节点 失效 

节点 失效 将 导致 该 节点 的 履 盖 网 络 连 接 中 断 ， 严 重 影响 P2P 覆盖 网 络 连接 性 。 节 点 失效 对 
覆盖 网 络 连 通 性 影响 的 程度 依赖 于 履 盖 网 络 图 的 性 质 和 失效 节点 的 度 〔〈 即 邻居 链 路 的 数目 ) Bl 
如 ， 在 基于 寡 律 图 的 PP AANA (如 Gnutella 0. 4 版 本 ) 中 ， 部 分 节点 的 随机 失效 并 不 会 将 覆 
盖 网 络 分 割 为 不 连接 的 几 个 部 分 。 然 而 一 些 度 高 的 节点 失效 很 容易 损害 覆盖 网 络 ， 从 而 导致 履 
盖 网 络 分 割 为 若干 个 不 连接 部 分 。 

基于 DHT 的 结构 化 PP 系统 通过 为 每 个 节点 建立 0(log n) 个 邻居 链 路 实现 O(log n) WH 
询 时 间 复 杂 度 。 节 点 邻居 需要 根据 事先 定义 好 的 规则 来 选择 ， 而 不 是 随机 选择 。 例 如 ， 在 Chord 
中 ， 节 点 x 指针 表 的 第 i 项 是 (x +2 ) mod 2" 的 后 继 ， 其 中 0<x<m -1, iim 是 标识 的 长 度 。 
结构 化 P2P 系统 依靠 这 些 邻 居 来 加 快 查询 服务 ， 但 不 是 保证 覆盖 网 络 的 连通 性 。 因 此 一 个 邻居 
的 失效 仅仅 延迟 了 资源 查询 。 覆 盖 网 络 的 连通 性 通过 其 他 方法 来 保障 ， 比 如 在 Chord 中 ， 每 个 节 
点 维护 的 O(log n) 个 直接 后 继 节点 列表 来 达到 该 目的 。 

前 面 提 到 的 节点 错误 是 简单 的 死机 故障 或 者 静默 失效 ， 也 就 是 说 ， 失 效 节点 仅仅 是 不 再 响 
应 发 送 给 它们 的 消息 ( 即 它们 保持 静默 )。 另 一 种 错误 是 拜占庭 错误 ， 即 发 生 错 误 的 节点 在 和 其 
他 节点 通信 时 表现 不 一 致 。 拜 占 庭 错误 通常 是 由 攻击 引起 的 ， 而 且 往往 在 基于 DHT 的 P2P 系统 
中 讨论 。 这 是 因为 基于 DHT 的 P2P 系统 更 容易 受到 拜占庭 错误 的 影响 。 攻 击 者 可 以 精心 为 拜 占 
庭 节 点 选择 一 个 下 地 址 以 及 节点 加 入 网 络 的 位 置 ， 从 而 把 和 拜占庭 节点 放 在 重要 的 位 置 。 当 处 理 
查询 请 求 时 ， 拜 占 庭 节点 对 相同 的 请 求 回 复 不 同 的 响应 ， 从 而 延缓 查询 服务 ， 甚 至 可 导致 系统 无 
法 使 用 。 对 于 无 结构 PP 系统 来 说 ， 查 询 请 求 在 覆盖 网 络 上 泛 洪 ， 因 而 从 请 求 源 到 满足 请 求 的 
节点 之 间 存 在 多 条 不 相交 路 径 。 . 

例 8. 13 错误 对 实际 P2P 网 络 的 影响 

节点 失效 对 P2P 网 络 的 影响 依赖 于 系统 体系 结构 各 所 使 用 的 协议 。 在 诸如 Napster 的 中 心 索 
引 服 务 器 模型 中 ， 索 引 服 务 器 的 失效 将 导致 整个 系统 上 崩溃， 这 是 因为 资源 查询 服务 将 完全 失效 。 
而 在 诸如 Gnutella 0.4 版 本 的 纯 P2P 模型 中 ， 单 个 节点 的 失效 对 查询 服务 影响 微乎其微 ， 这 是 因 
为 节点 仅仅 维护 自己 的 索引 。 

在 类 似 于 KaZaA 的 超级 节点 混合 模型 中 ,超级 节点 的 失效 将 丢失 与 其 连接 的 节点 的 索引 信 
息 ， 这 意味 着 资源 查询 服务 效率 可 能 会 下 降 ， 甚 至 不 能 工作 。 在 基于 DHT 的 结构 化 P2P 网 络 
(如 Chord) 中 ,资源 索引 信息 几乎 是 均匀 地 分 布 在 所 有 节点 上 ， 因 此 ,节点 的 失效 不 可 避免 地 
会 恶化 查询 服务 的 性 能 ， 但 是 并 不 会 导致 整个 系统 无 法 工作 。 节 点 的 失效 将 中 断 它 和 其 他 节点 
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正在 进行 的 资源 共享 服务 ，P2P 网 络 借 助 服务 备份 和 资源 重新 分 配 来 恢复 文件 共享 服务 。 E 

8.3.3.2 失效 恢复 分 析 

由 于 失效 是 经 常 发 生 的 ，P2P 系统 需要 有 效 的 从 节点 失效 恢复 ， 如 Chord 借助 周期 性 稳定 操 
作 来 解决 节点 失效 。 另 一 种 方法 是 让 节点 周期 性 地 从 指针 表 中 随机 选择 邻居 来 检测 是 否 活跃 。 
在 Chord 中 ， 假 如 节点 x 的 第 i 项 指针 表 所 指 节 点 失效 ， 它 将 重新 确定 (x +2') mod 2” 的 后 继 来 
代替 失效 表 项 ， 其 中 0<i<m 一 1。 节 点 也 周期 性 验证 其 直接 后 继 是 否 活跃 。 在 Pastry 中 ， 节 点 路 
由 表 项 的 失效 在 转发 查询 请 求 时 被 发 现 。 当 从 备份 节点 列表 中 选择 新 节点 来 代替 失效 表 项 时 ， 
如 果 节 点 在 线 时 间 分 布 是 非常 倾斜 的 ， 那 么 随机 替换 策略 优 于 其 他 方法 。 这 里 ， 随 机 地 从 若干 节 
点 选择 出 新 节点 来 代替 失效 节点 。 这 是 因为 随机 替换 策略 将 更 可 能 选择 在 线 时 间 长 的 节点 。 

8.3.3.3 容错 技术 

和 传统 的 基于 客户 端 /服务 器 模型 的 分 布 式 系统 不 同 ， 在 P2P 系统 中 没有 一 个 节点 拥有 全 局 
视图 ， 节 点 依赖 局 部 视图 来 发 现 错误 并 以 完全 分 散 的 方式 从 失效 中 恢复 。P2P 覆盖 网 络 通过 宛 余 
来 保证 稳定 的 吞吐 量 ， 例 如 ， 每 个 节点 有 多 个 邻居 提供 服务 。 这 里 的 问题 是 宛 余 需要 达到 什么 程 
度 就 足够 了 。 

在 Chord 覆盖 网 络 中 ， 后 继 节点 列表 是 保证 连接 性 和 路 由 准确 性 的 关键 组 件 。 每 个 节点 维护 
一 个 长 度 为 0(log n) 的 后 继 列表 ， 其 中 是 节点 的 个 数 。 如 果 当 前 后 继 失效 ， 节 点 从 后 继 列表 
中 找 出 第 一 个 活 牙 项 来 代替 失效 后 继 。 人 恨 设 节点 失效 是 独立 的 且 失 效 概 率 为 0.5， 那 么 后 继 列表 


中 所 有 节点 失效 的 概率 为 (十) ”= 1/n。 因此， 每 个 节点 以 大 概率 知道 它 的 直接 活路 后 继 节 点 ， 


这 足以 保证 覆盖 网 络 的 连通 性 。 

在 无 结构 P2P 窗 盖 网 络 中 ， 节 点 邻居 是 随机 选择 的 和 灵活 的 ， 不 需要 维护 严格 的 结构 。 因 
此 ， 无 结构 P2P 覆盖 网 络 比 结构 化 P2P 覆盖 网 络 更 加 可 靠 。 结 构 化 P2P 覆盖 网 络 的 可 靠 性 是 指 
维护 预先 定义 的 结构 ， 且 任意 一 对 节点 之 间 至 少 有 一 条 路 径 可 达 。 

在 一 个 由 二 个 节点 组 成 的 、 基 于 随机 图 的 覆盖 网 络 中 ， 如 果 两 个 节点 之 间 存 在 一 条 链 路 的 概 
率 为 (lognm+c+o(l)) 和 ,那么 覆盖 网 络 以 e… 概率 连通 。 这 个 结论 可 以 很 容易 扩展 到 节点 和 
链 路 失效 的 情形 。 假 设 链 路 失效 是 相互 独立 ， 且 概率 为 9， 那么 为 了 达到 概率 为 e“* 的 连通 性 ， 
任意 两 个 节点 间 存 在 一 条 链 路 的 概率 需要 增 大 到 p = (log n+c+o(1))/(1 -q)a, 

8.3.3.4 错误 分 析 

在 Chord 环 状 结构 中 ， 如 果 节 点 失效 的 概率 是 e“(a>1) ， 且 相互 独立 ,那么 环 状 结构 以 大 
于 1 -nm 的 概率 连通 ， 其 中 e 为 自然 对 数 的 底数 。 这 说 明了 与 维护 log ”个 随机 邻居 的 覆盖 网 络 
相 比 ，REM 覆盖 网 络 对 随机 失效 具有 相同 的 抵御 能 力 。 在 前 面 的 分 析 中 ， 履 盖 网 络 的 失效 抵御 
都 是 在 随机 失效 的 前 提 下 进行 的 。 但 是 在 邻近 性 感知 覆盖 网 络 中 ， 领 居 节 点 的 失效 可 能 是 相关 
的 。 物 理 上 上 距离 近 的 节点 可 能 由 于 网 络 拥塞 同时 失效 ， 因 此 容错 方面 的 工作 需要 考虑 邻近 信息 
感知 的 覆盖 网 络 中 的 容错 。 511 
8.3.4 抗 扰动 与 失效 

P2P 网 络 经 常 面 临 由 节点 扰动 带 来 的 问题 ， 节 点 扰动 来 源 于 非 预期 节点 加 和 人、 离开 或 者 失 
效 。 节 点 失效 或 者 突然 离开 对 网 络 性 能 有 非常 不 利 的 影响 ， 因 为 失效 节点 上 存储 的 数据 将 变 得 
不 再 可 用 ， 而 正在 从 失效 节点 请 求 服务 的 节点 需要 重新 定位 服务 。 所 以 P2P 覆盖 网 络 应 该 具有 
容错 能 力 和 抗 扰动 能 力 。 本 节 研 究 由 节点 扰动 和 失效 带 来 的 问题 。 

8.3.4.1 抗 扰动 协议 

在 邻近 信息 感知 的 覆盖 网 络 中 增加 容错 能 力 的 途径 之 一 是 保证 关键 链 路 〈 或 者 连接 ) HE 
通 性 ， 比 如 集群 之 间或 者 节点 之 间 的 随机 链接 。 这 个 目标 可 以 通过 为 关键 链 路 提供 备份 节点 来 
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实现 。 例 如 ， 在 GoCast'”! 中 ， 每 个 节点 维护 一 个 节点 缓存 作为 备份 。 另 一 个 例子 是 CRP, RK 
协议 可 以 建立 邻近 信息 感知 和 抗 扰 动 的 P2P 覆盖 网 络 。 

CRP 构建 的 覆盖 网 络 是 带 有 弱 连 接 的 环 状 结构 ， 它 和 Chord ACARD FE FERIA BIE 
照 指针 表 形 成 的 固定 连接 。 相 反 ， 弦 连接 是 在 满足 邻近 性 属性 的 节点 之 间 建 立 的 ，CRP 同时 考 
虑 网 络 邻近 性 和 能 力 邻 近 性 。 网 络 邻 近 性 是 由 节点 在 物理 P 网络 上 的 延迟 或 者 邻近 性 来 度量 的 ， 
可 用 来 指导 建立 低 延 迟 的 弦 链 接 。 能 力 邻近 性 是 节点 之 间 关 于 节点 能 力 的 邻近 性 ， 可 以 把 能 力 
相近 的 节点 组 成 集群 。 

8.3.4.2 使 用 CRP 建立 履 盖 网 络 

由 三 个 节点 组 成 的 初始 环 状 结构 如 图 8-21a 所 示 。 环 状 结构 是 单 向 的 ， 顺 时 针 方向 的 弧 连 接 
用 虚线 标识 ， 假 设 这 些 连接 都 具有 单位 为 1 的 相同 权重 。 节 点 A 的 后 继 和 前 驱 分 别 为 B 和 和 C， 第 
4 个 节点 D 在 节点 A 和 C 之 间 的 弧 上 加 入 ， 如 图 8-21b 所 示 ， 节 点 B A D 之 间 增 加 了 权重 为 0.7 
的 弦 连 接 。 在 图 8-21c H, 第 5 个 节点 在 节点 C 和 D 之 间 加 入 ， 增 加 了 两 条 权重 为 0.6 和 0.8 
DEAR: T 

新 加 入 的 节点 可 能 会 和 其 他 节点 建立 新 的 连接 ,并 同时 移 除 某 些 连 接 。 如 果 已 经 存在 的 弦 
连接 的 权重 高 于 将 要 增加 的 连接 ， 那么 它 将 被 移 除 。 在 图 8-21d 中 ， 新 节点 下 加 入 到 节点 A 和 DD 
之 间 , 『 和 B、F 和 之 间 的 两 条 新 弦 连 接 取 代 图 8-21c 中 的 B 和 之 间 的 连接 。 新 增加 的 弦 连 
接 的 权重 必须 小 于 将 要 被 代替 的 连接 。 和 覆盖 网 络 使 用 权重 小 的 弦 连 接 来 取代 权重 高 的 连接 ， 从 
而 在 不 改变 节点 度 的 情况 下 不 断 自 适 应 动态 调整 。 

在 图 8-2le H, 图 8-21d 中 B 和 DD 以 及 A 和 正之 间 的 连接 被 A 和 D 以 及 B 和 下 之 间 权 重 更 
低 的 连接 代替 。 图 8-21f ERT EAE 离开 之 后 的 覆盖 网 络 ， 和 下 相关 的 连接 被 移 除 。 节 点 都 维 
护 正确 的 后 继 节点 ， 所 以 环 状 结构 一 直 是 连通 的 。 为 了 提高 覆盖 网 络 连通 性 ，CRP 借用 了 Chord 

[512] 中 后 继 列 表 的 概念 ， 每 个 节点 维护 长 度 为 Ooga) 的 后 继 节 点 列表 ， 当 前 后 继 失效 后 ， 后 继 列 
表 中 第 一 个 活跃 的 节点 将 代替 失效 节点 作为 新 的 后 继 节点 。 例 如 ， 在 图 8-21e 中 ， 节 点 C 的 后 继 
列表 包括 节点 和 D， 如 果 E 失效 或 者 离开 , D 将 成 为 C 的 新 后 继 。 


^O B 
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， , 
, 








0. n` o: 
d) 节点 F 加 入 后 e) 连接 调整 后 D 节点 E 离 开 后 


图 8-21 基于 CRP 的 覆盖 网 络 设计 举例 
iż: WLI, Xie, Hwang 和 Lit24] 提供 。 
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8.3.4.3 CRP 性 能 

图 8-22 给 出 了 CRP 与 其 他 4 种 基于 树 的 算法 的 性 能 比较 。CRP: q 是 指 元 余 消息 复制 比例 为 
4 时 的 CRP 系统 ; CAM-Chord 建立 在 Chord 覆盖 网 络 之 上 ， 它 考虑 节点 在 能 力 方面 的 差异 ; 
ACOMC 实现 了 范围 受 限 的 泛 洪 和 覆盖 网 络 上 的 随机 游 动 项 结构 的 数据 分 发 ，GoCastt9] 和 
Plumtree ”*? 使 用 基于 树 的 谣言 传播 机 制 来 实现 数据 分 发 。 从 图 中 可 以 看 出 ，CRP 在 分 发 时 间 上 优 
于 其 他 方法 ， 这 是 因为 它 考虑 了 邻近 性 感知 。CRP 中 消息 复制 接近 于 0， 并且 可 以 通过 调整 g 来 
控制 。 

基于 CRP 的 履 盖 网 络 同时 考虑 了 网 络 邻 近 性 和 能 力 邻近 性 ， 使 用 范围 受 限 的 泛 洪 和 树 状 传 
播 方法 来 快速 分 发 数据 。 和 覆盖 网 络 为 树 状 结构 提供 元 余 的 邻近 性 链 路 ， 从 而 实现 容错 。CRP A 
盖 网 络 为 树 状 结构 提供 了 足够 的 备份 连接 ， 如 果 节 点 x 收 到 父 节点 的 离开 通知 或 者 通过 心跳 消息 
发 现 了 父 节点 的 失效 ， 它 主动 切换 父 节点 。 节 点 x 倾向 于 选择 邻近 的 邻居 作为 新 的 父 节点 ， 以 节 
约 数据 分 发 时 间 。 
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图 8-22 P2P 网 络 中 的 5 种 数据 分 发 机 制 的 平均 分 发 时 间 比 较 
注 ， 由 ZL 等 人 [24] 提供。 


8.4 信任、 信誉 和 安全 管理 


对 等 节点 的 匿名 性 和 动态 性 导致 P2P 网 络 容 易 受到 自私 和 恶意 节点 的 攻击 。 大 多 数 PPX 
件 共 享 网 络 ( 如 Gnutella) 由 利己 自治 节点 组 成 ， 目 前 并 没有 有 效 的 办 法 来 阻止 恶意 节点 加 入 
P2P 这 种 开放 的 网 络 。 为 了 鼓励 节点 贡献 资源 并 抵御 恶意 节点 的 行为 ， 信 任 和 信誉 管理 对 P2P 网 
络 变 得 异常 重要 。 

如 果 没 有 信任 ， 节 点 向 其 他 节点 贡献 资源 的 动机 会 很 小 。 因 为 担心 接收 到 被 毁坏 或 污染 的 
文件 或 者 被 恶意 软件 利用 ， 节 点 可 能 不 愿意 和 不 熟悉 的 节点 交互 。 为 了 识别 出 可 信任 的 节点 ， 商 
FA P2P 应 用 (如 在 线 商店 、 拍 卖 、 内 容 分 发 和 每 次 交易 付费 的 应 用 等 ) 需要 信誉 系统 的 支持 。 
8.4.1 节点 信任 和 信誉 系统 

本 节 介 绍 节点 之 间 建 立信 任 关 系 所 需 的 信任 模型 特征 ， 将 定义 P2P 信誉 系统 中 表示 节点 信 
誉 关系 的 信任 矩阵 。 

8.4.1.1 节点 信任 特征 

有 两 种 方法 来 模型 化 节点 之 间 的 信任 或 者 不 信任 ， 即 信任 和 信誉 。 信 任 指 的 是 一 个 节点 根 


513 


362 第 三 部 分 网 格 、P2P 和 未 来 互联 网 


据 自 己 对 某 个 节点 的 直接 经 验 而 产生 的 对 该 节点 的 信赖 程度 ， 而 信誉 则 是 根据 其 他 节点 推荐 而 
产生 的 对 某 个 节点 的 信赖 。 为 了 更 好 地 应 对 P2P 开放 网 络 实际 情况 ， 必 须 假 设 PP 系统 的 参与 
节点 互相 并 不 信任 ， 除 非 信任 得 到 了 证 明 。 

为 了 建立 节点 之 间 的 信任 或 者 不 信任 关系 ， 需 要 构建 一 个 根据 节点 过 去 行为 记录 而 形成 的 
信誉 系统 。 系 统 的 目的 是 通过 一 个 科学 的 筛选 过 程 把 “好 ”节点 和 “ 坏 ” 节 点 区 分 开 来 。 信 誉 
系统 的 性 能 主要 由 其 周期 性 更 新 中 的 准确 性 和 效率 来 衡量 。 

8.4.1.2 计算 信誉 所 使 用 的 信任 给 阵 

考虑 如 图 8-23 所 示 的 PP 系统 ， 系 统 由 5 个 节点 N1，N2,…，N5 组 成 ， 有 向 图 是 用 来 收 
集 全 局 信誉 值 的 。 节 点 之 间 的 信任 关系 由 一 个 行列 数 相等 的 信任 和 珑 阵 用 (1) =(m,(t)] 表示， 其 
中 mj(t) 是 在 时 刻 t 节 点 i 对 节点 7 的 本 地 信任 分 数 。 信 任 分 数 是 《0，、1) 之 间 的 一 个 小 数 ，0 
表示 没有 任何 信任 (或 者 没有 联系 ) ，! 表示 百分之百 信任 ,信任 由 这 些小 数 来 度量 。 对 于 5 个 
节点 的 网 络 ， 下 面 的 信任 模型 是 在 某 个 时 刻 形成 的 。 注 意 ， 所 有 行 加 和 为 1。 值 为 0 的 项 ， 即 
my(t) =0， 表 示 节 点 i 由 于 没有 和 j 直接 交互 而 没有 对 节点 7 进行 评估 。 对 角 线 上 的 值 都 为 0， 表 


示 节 点 并 不 自 评 。 
0 0 0 02 08 
0.60 00 0.4 
M(t) =|0 0700 03 (8-2) 
0 0 00 0 


0.9 0 0 0.1 0 
在 图 8-23 中 ， 边 上 的 标签 是 所 有 ( 源 ， 目 的 ) 对 之 间 的 本 地 分 数 ， 节 点 内 的 小 数 是 在 时 刻 : 
节点 的 全局 信誉 分 数 。 一 个 节点 的 全 局 信誉 分 数 是 根据 所 有 节点 对 该 节点 的 本 地 分 数 集群 化 而 
R, 但 是 所 有 本 地 分 数 必须 用 节点 本 身 的 全 局 信誉 值 来 加 权 。 也 就 是 说 ， 全 局 信誉 是 本 地 分 数 的 
加 权 和 。 为 了 清楚 表述 ， 所 有 全 局 信誉 分 数 都 经 过 了 归 一 化 ， 从 而 使 得 它们 的 和 为 “1”。 例 如 ， 
5 个 节点 的 全 局 分 数 由 一 个 信誉 向 量 表 示 ， 该 向 量 包含 5 个 元 素 ， 且 和 为 1。 
V(t) = {v (4) ,v,(£) ,v(t) vt) ,v5(t)} = {0.32,0.001,0.009,0.04 ,0. 63} (8-3) 





图 8-23 P2P 网 络 中 5 个 节点 的 信任 关系 有 向 图 


8.4.1.3 信誉 系统 

在 计算 一 个 节点 的 全 局 信誉 分 数 时 ， 信 誉 系统 考虑 所 有 与 该 节点 交互 过 的 节点 对 它 的 意见 
CBN RAE) 。 一 个 节点 在 完成 一 次 交易 〈 比 如 下 载 一 个 音乐 文件 ) 之 后 将 对 与 它 交互 过 的 节点 进 
行 反馈 ， 以 便 以 后 的 交易 中 使 用 。 通 过 对 所 有 节点 公开 信誉 分 数 ， 节 点 基于 这 些 分 数 判 断 娜 个 节 
点 是 可 信和 的。 

eBay 信誉 系统 通过 集中 式 方式 来 管理 所 有 节点 的 反馈 分 数 ， 它 是 一 个 简单 而 成 功 的 信誉 系 
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统 。 然 而 在 开放 和 分 散 的 P2P 系统 中 ， 并 没有 任何 中 央 服 务 器 来 维护 和 分 发 节点 的 信誉 信息 。 
大 多 数 P2P 信誉 系统 通过 以 完全 分 布 式 的 方式 收集 节点 的 反馈 来 计算 全 局 信誉 分 数 。 由 于 大 规 
模 P2P 系统 固有 的 要 求 ， 建 立 高 效 的 P2P 信誉 系统 是 一 项 非常 有 挑战 性 的 工作 。 
我 们 可 以 构建 一 个 评估 系统 来 测量 节点 的 信誉 。 在 每 次 交易 后 ， 参 与 交易 的 节点 互 评 对 方 ， 
给 出 诚实 的 分 数 ， 这 和 我 们 目前 在 eBay 等 在 线 拍卖 系统 所 做 的 一 样 。 但 是 并 不 是 每 个 节点 都 是 
可 信 的 ， 恶 意 节点 给 出 的 分 数 是 没有 意义 的 ， 而 越 可 信 的 节点 给 出 的 分 数 越 有 意义 。 这 说 明 需 要 
根据 节点 的 信誉 来 为 反馈 分 数 给 予 不 同 的 权重 。 节 点 的 信誉 可 能 和 别 的 节点 不 同 ， 信 和 誉 可 以 用 
一 个 信誉 矩阵 来 表示 。 
8.4.1.4 全 局 信誉 聚集 
全 局 信誉 分 数 是 从 局 部 的 反馈 聚集 形成 的 。 反 馈 的 分 布 式 特性 对 高 效 信 誉 系统 的 设计 是 至 
关 重 要 的 ,但 大 多 数 已 有 工作 要 么 忽略 了 节点 反馈 的 分 布 式 特性 ， 要 人 么 假设 任意 随机 分 布 ， 从 而 
可 能 导致 误解 。 为 了 实现 对 全 局 信誉 分 数 的 计算 ， 每 个 节点 计算 自己 的 部 分 ， 而 所 有 节点 协作 计 
算 全 局 信誉 矩阵 。 例 如 ， 在 时 刻 上 +1， 节 点 N5 的 全 局 信誉 分 数 可 以 由 下 面 的 公式 计算 : 
vt +1) =m,(t) xo (t) + ms(t) xo, (t) + ms(t) x v(t) 
= 0.8 x0.32 +0.4 x0.001 +0.3 x0.009 = 0. 2573 
按照 同样 的 方法 可 得 剩余 4 个 节点 的 全 局 分 数 ， 这 将 产生 如 下 更 新 后 的 全 局 信誉 向 量 ; 
V+1) = fo, (+1) ,v(t +1) ,v(t +1) ,w(t +1) ,0,(¢ + 1)} 
= 10. 5673 ,0. 0063 ,0,0. 1370 ,0. 2573} 
该 向 量 并 未 归 一 化 。 通 过 把 对 每 个 节点 的 分 数 除 以 所 有 节点 分 数 之 和 ， 我 们 得 到 了 归 一 化 
的 全 局 信誉 向 量 。 需 要 说 明 的 是 ， 在 归 一 化 向 量 中 ，5 个 节点 的 信誉 之 和 应 该 是 1。 
VE+1) = {v (t +1) ,v(t +1) ,v(t +1) ,v(t +1) ,0,(8 +1) | 
= {0. 5862 ,0. 0065 ,0 ,0. 1416 ,0. 2657} 
8.4.1.5 信誉 系统 的 设计 目标 
在 设计 高 效 的 P2P 信誉 系统 时 ， 需 要 解决 下 面 的 6 个 关键 问题 。 
。 高 准确 性 : 为 了 把 信誉 好 的 节点 和 恶意 节点 区 分 开 ， 系 统计 算 所 得 的 信誉 分 数 需 要 尽量 
和 节点 真实 的 可 信和 度 一 致 。 
。 快速 收 剑 : 节点 的 信誉 是 随时 间 变 化 的 ， 信 和 誉 聚集 应 该 快速 收敛 以 反映 节点 行为 的 真实 
变化 。 
。 (RAB: 为 了 监测 和 评估 节点 的 信誉 ， 系 统 只 应 该 消耗 有 限 的 计算 和 带宽 资源 。 
。 自 适 应 节点 动态 性 : 节点 动态 地 加 入 和 离开 开放 P2P 系统 ， 信 誉 系统 都 应 该 能 够 适应 这 
种 节点 的 动态 性 ， 而 不 是 依赖 于 预先 确定 的 节点 。 
。 针对 恶意 节点 的 鲁 棒 性 : 无 论 面 对 独 立 或 者 共 谋 恶意 节点 的 各 种 攻击 ， 系 统 都 应 该 具有 
良好 的 鲁 棒 性 。 
e 可 扩展 性 : 就 准确 性 、 收 敛 速度 和 节点 额外 开销 等 指标 评价 来 说 ,信誉 系统 应 该 能 够 扩 
展 到 包含 大 量 节点 的 P2P 系统 。 
8.4.1.6 三 个 代表 性 信誉 系统 
PeerTrust 系统 "是 由 佐治 亚 理工 大 学 开发 的 。 该 系统 把 分 数 加 权 后 的 平均 反馈 作为 节点 的 
信誉 ， 系 统 建议 使 用 5 种 信誉 属性 。FigenTrust 系统 "是 由 斯 坦 福 大 学 开发 的 ， 利 用 节点 信誉 逢 
阵 的 特征 向 量 来 计算 信誉 信息 。FigenTrust 依赖 于 事先 可 信 节 点 的 选择 。 这 种 假设 在 分 布 式 计算 
环境 中 可 能 过 于 乐观 ， 因 为 事先 可 信 的 节点 会 随 着 时 间 而 改变 。PowerTrust 信誉 系统 1 是 由 南 加 
再 于 党 于 发 的 ， 将 在 8.4.3 节 介 绍 。 表 8-$ 从 4 个 技术 层面 比较 了 三 种 系统 。 
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(8-5) 
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表 8-5 三 种 P2P 信誉 系统 比较 


局 部 (本 地 ) 
使 用 正面 和 负 | 作用 六 先 丰 人 第 点 让 等 全 。 分 下 入党 信 天 和 | 事先 可 信人 节点 离开 使 得 
E | 利用 信任 算 阵 来 计算 | 全 局 分 数 收集 所 用 消息 会 带 来 中 | aa n aa 
全 局 信 痊 分 数 等 程度 的 开销 
节点 以 分 布 式 的 方 | 中 等 开销 :由 5 个 因素 构成 的 
_ 从 让 交易 的 内 | 式 计算 由 5 个 因素 构 | 全 局 分 数 计算 和 信任 管理 者 的 建 | OT TEBE 
成 的 信任 分 数 立会 带 来 中 等 程度 的 开销 E 


低 开 销 : 使 用 可 保持 局 部 性 的 
险 希 来 定位 power 节点 。 由 于 使 
用 了 超前 随机 游 动 ， 全 局 信誉 聚 
集 时 间 大 幅 下 降 
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面 对 节 点 的 动态 加 入 和 
离开 以 及 恶意 节点 ， 仍 能 
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8.4.2 信任 覆盖 网 络 和 DHT 实现 

本 节 将 介绍 信任 覆盖 网 络 概念 ， 信 任 覆 盖 网 络 用 来 快速 收集 信任 信息 以 计算 全 局 信任 值 ， 
然后 介绍 信誉 系统 的 一 种 DHT 实现 。 

8.4.2.1 信任 履 盖 网 络 (Trust Overlay Network, TON) 

TON 是 建立 在 P2P 系统 之 上 的 虚拟 网 络 ， 如 图 8-24 所 示 。 该 网 络 用 有 向 图 表示 的 ， 其 中 
TON 图 中 的 节点 对 应 P2P 系统 中 的 节点 。 有 向 边 或 者 连接 的 权重 是 两 个 交互 节点 的 反馈 分 数 。 
该 分 数 是 由 连接 的 源 节点 生成 的 ， 用 来 评估 与 其 交互 的 节点 (连接 的 目的 ) 所 提供 的 服务 。 例 如 ， 
节点 N, 在 从 N, 和 六 下 载 完 音乐 文件 后 对 两 个 文件 提供 节点 分 别 生 成 值 为 0.7 和 0.3 的 反馈 分 数 。 
如 果 一 个 节点 从 同一 提供 商 处 获得 多 个 服务 ， 那 么 该 节点 在 每 次 交易 后 产生 更 新 后 的 分 数 。 


信任 覆盖 网 络 (TON) 





底层 P2P 网 络 
图 8-24 用 于 P2P 信任 管理 的 信任 覆盖 网 络 ， 其 中 边 的 权重 是 节点 对 所 提供 服务 的 反馈 分 数 。 一 
个 节点 的 全 局 信誉 值 是 所 有 入 边 代 表 的 本 地 (局 部 ) 信任 值 的 加 权 和 
iż; 由 R. Zhou 和 K. Hwang!*7! 提供 。 
A 该 系统 可 以 使 用 不 同 的 方法 来 产生 反馈 分 数 ， 如 贝 叶 斯 学 习 等 。 在 一 个 TON 中 ， 每 个 节点 
网 保存 它 对 其 他 节点 的 反馈 分 数 。 因 为 每 个 节点 都 有 自己 的 标准 来 产生 反馈 分 数 ， 所 以 反馈 将 被 
518」 归 一 化 后 作为 本 地 信誉 分 数 。 每 个 节点 N, 的 全 局 信誉 分 数 用 v, 表示 ， 该 值 是 所 有 人 度 邻 居 2 的 
全 局 信誉 分 数 对 本 地 信誉 分 数 加 权 后 产生 的 。 例 如 ， 节 点 N, 的 全 局 信誉 分 数 可 以 通过 对 N,N, 


O ARSEN N 有 一 条 有 向 边 。 一 一 译 者 注 
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和 Nm 产生 的 三 个 指向 它 的 本 地 信誉 分 数 加 权 后 计算 : v, =0.8 vi +0.7 vs +0.6 towo HF”, = 
0.04, v, =0.0007, voo =0.000 005， 因 此 v, =0. 8 x0.04+0.7x0.0007+0.6x0.000 000 5 = 
0. 032 +0, 000 49 +0. 000 03 =0. 032 493 。 在 本 例 中 , 与 ww 和 wm 相 比 ， 节 点 N, 的 信誉 分 数 w 非 
常 高 ， 因 此 在 计算 全 局 信誉 分 数 的 过 程 中 ，m 的 权重 更 大 。 

8.4.2.2 DHT 实现 

分 布 式 信誉 排名 需要 两 个 不 同 的 哈 希 覆盖 网 络 ， 一 个 把 节点 分 配给 它们 的 信誉 分 数 管理 者 ， 
另 一 个 根据 节点 的 全 局 信誉 分 数 对 节点 排序 。 图 8-25 给 出 了 一 个 由 5 个 节点 组 成 的 系统 ， 该 系 
统 建立 在 标识 长 度 为 4 位 的 Chord ko TA 和 Ns 是 节点 N, 的 信誉 管理 者 ， 其 中 N 的 全 局 信誉 值 
为 0.2。 节 点 Ni 使 用 简单 的 LPH 函数 H(x) =32x 对 信誉 值 0.2 哈 希 ， 哈 希 值 为 6.4。 节 点 Ns 发 
送 消息 Sort_Request {key =6.4，(0.2，N,，Ns) |， 该 消息 被 路 由 到 节点 N， 由 于 节点 NV 是 哈 希 
值 6.4 的 后 继 节点 ， 它 存储 三 元 组 (0.2, M, Ns)。 
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图 8-25 ”分布 式 信誉 排名 ， 使 用 了 建立 在 基于 DHT 的 P2P 系统 之 上 的 局 部 性 保持 险 希 函数 
注 : 由 R. Zhou # K. Hwang[57] 提 供 。 


WRN, 是 最 大 蛤 希 值 15 的 后 继 节点 、 因 此 ， 它 发 起 寻找 mr 个 power 节点 的 过 程 。 节 点 N, 
负责 的 哈 希 值 范围 是 两 个 区 域 (15, 16)U[0, 2] 的 并 集 ， 但 是 由 于 在 区 域 (15，16) 上 没有 
对 应 的 三 元 组 ， 所 以 它 并 不 存储 最 高 的 信誉 值 对 应 的 三 元 组 ， 也 就 是 说 , 上 =0。 因 此 ， 它 发 送 消 
息 Top_m_Request(m=1, k=0) 给 它 的 前 驱 节 点 ws， 发 现 它 存储 的 信誉 值 为 0. 4 的 三 元 组 是 最 
高 信誉 值 的 三 元 组 ， 所 以 节点 M 是 该 例子 系统 中 信誉 最 高 的 节点 。 我 们 可 以 使 用 多 个 LPH 函数 
来 防止 恶意 节点 的 欺骗 。 


8. 4.3 PowerTrust: 可 扩展 的 信誉 系统 


图 8-26 给 出 了 PowerTrust 系统 的 组 成 模块 。 首 先 在 P2P 系统 中 的 所 有 节点 之 上 建立 TON, 
当 一 对 节点 交易 后 ， 节 点 相互 评价 。 所 有 节点 彼此 之 间 频 繁 发 送 局 部 信任 分 数 ， 这 些 分 数 作为 
PowerTrust 系统 的 原始 数据 输入 。 系 统 收集 局 部 分 数 来 为 每 个 参与 节点 计算 全 局 信誉 分 数 ， 输 出 
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是 由 所 有 节点 的 全 局 分 数组 成 的 信誉 向 量 ,，V = (v1，2,，V;，"…，,)。 全 局 分 数 归 一 化 后 使 得 
7 = 1 ,其 中 i=1, 2, =, n, Tin Æ TON 网 络 的 大 小 。 

系统 由 5 个 功能 模块 组 成 ， 如 图 8-26 所 示 。 常 规 随机 游 动 模块 用 来 支持 初始 信誉 收集 ， 超 
前 随机 游 动 (Look-ahead Random Walk, LRW) 模块 用 来 周期 性 更 新 信誉 分 数 。 为 了 达到 这 个 目 
的 ，LRW 使 用 分 布 式 排名 模块 来 识别 power 节点 ， 系 统 借 助 power 节点 来 更 新 全 局 信誉 值 。 
PowerTrust 实现 了 全 局 信誉 值 的 快速 聚集 ， 具 有 较 高 的 准确 性 ， 可 抵抗 恶意 节点 攻击 ， 而 且 具 有 
良好 的 扩展 性 ， 可 以 支持 大 规模 P2P 应 用 。 


全 局 信誉 分 数 ( 值 ) 
[| 


初始 信誉 聚集 信誉 更 新 Comet 3 
常规 随机 游 动 超前 随机 游 动 分 布 式 排名 模块 


局 部 (本地) 信任 值 


















图 8-26 PowerTrust 系统 功能 模块 ， 系 统 用 来 聚集 信任 分 数 并 计算 全 局 信誉 什 
iÈ: 由 Zhou 和 Hwang! l 4844, 
8.4.3.1 信誉 收敛 开销 
收 伍 开销 用 全 局 信誉 收敛 之 前 的 和 迭代 次 数 来 衡量 ， 收 敛 是 指 两 次 连续 的 信誉 向 量 之 间 的 距 
[520] 离 小 于 设 定 的 益 值 。EigenTrust 方法 依赖 于 一 些 事先 可 信 的 节点 来 计算 全 局 信誉 值 ， 它 假设 了 在 
最 先 加 入 系统 的 若干 个 节点 中 有 一 些 节点 是 可 信 的 。 
为 了 公平 起 见 ，PowerTrust 系统 中 power 节点 的 数目 和 EigenTrust 系统 中 事先 可 信 的 节点 数目 是 
相同 的 。 图 8-27 给 出 了 两 个 信誉 系统 的 收敛 开销 ， 其 中 PowerTrust 中 的 power 节点 和 EigenTrust 中 
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AEAF (a) 
Æ 8-27 P2P 网 络 中 两 个 信誉 系统 的 收敛 开销 比较 
注 ; 由 Zhou 和 Hwangl57] 提供 。 
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事先 可 信和 的 节点 允许 自由 离开 。 可 以 看 出 ， 当 贪 歼 因子 从 0. 15 增长 到 1 时 ，PowerTrust 所 需 迭 代 
次 数 小 于 50， 而 EigenTrust 仍然 需要 100 次 以 上 的 迭代 来 收敛 。 当 系统 规模 增加 到 4 000 个 节点 
时 ，EigenTrust 系统 的 开销 高 达 400 次 和 迭代。 

EigenTrust 系统 收敛 非常 慢 ， 当 事先 信任 的 节点 允许 自由 离开 系统 时 ，EigenTrust 不 能 保证 收 
Do MIZE PowerTrust A, power 节点 在 每 次 收集 周期 后 重新 选择 。 根 据 分 布 式 排序 机 制 ， 即 
将 离开 的 power 节点 的 分 数 管理 者 及 时 通知 系统 使 用 合格 的 其 他 节点 来 替换 它们 。 计 算 开 销 的 降 
低 意味 着 网 络 流量 将 大 幅度 降低 ， 而 且 所 有 节点 工作 将 减少 ， 这 些 特性 使 得 PowerTrust 系统 对 高 
扩展 性 的 P2P 应 用 具有 很 强 的 吸引 力 。 

8.4.3.2 查询 成 功率 

PowerTrust 在 一 个 P2P 文件 共享 模拟 实验 中 部 署 ， 系 统 有 10 万 多 的 文件 ， 每 个 文件 的 副本 服 
从 B=1.2 的 寡 律 分 布 ， 每 个 节点 根据 Sarioiu 分 布 '"' 分 配 若 干 文件 。 在 每 个 时 间 步 ， 菜 个 节点 随 
机 产生 一 个 查询 ， 直 到 该 查询 完成 之 后 才 发 送 下 一 个 查询 。 查 询 是 根据 文件 的 流行 程度 来 排名 
的 : 对 于 排名 在 1 ~ 250 的 查询 ， 使 用 B = 0. 63 WA, 对 于 其 他 排名 低 的 查询 ， 使 用 有 = 
1. 24 为 的 宪 律 分 布 。 这 个 分 布 模型 刻画 了 PP 系统 中 的 查询 流行 程度 。 当 发 出 针对 某 个 文件 的 
查询 请 求 后 ， 请 求 者 将 选择 具有 最 高 全 局 信誉 的 文件 拥有 者 来 下 载 所 需 文件 。 

查询 成 功率 是 由 成 功 的 请 求 数目 与 发 出 的 请 求 数目 的 比值 来 度量 的 。 任 意 节点 都 可 能 回复 
假 的 文件 。 为 了 简单 起 见 ， 这 种 行为 发 生 的 概率 用 节点 的 全 局 信誉 的 反比 来 表示 。 实 验 考虑 了 人 多 
许 和 不 允许 power 节点 或 者 事先 可 信 节 点 离开 两 种 情况 。 图 8-28 显示 了 没有 power 节点 或 事先 可 
信 节 点 离开 的 结果 。 无 信任 系统 (no-trust system) 指 没有 信任 管理 的 P2P 系统 ， 这 种 系统 随机 
选择 一 个 节点 来 下 载 文 件 ， 而 不 考虑 信誉 。 
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8-28 ”两 种 信誉 系统 比较 : 分 布 式 文件 系统 中 的 查询 成 功率 
È: W Zhou 和 Hwang[57] 提 供 。 


在 每 轮 全 局 信誉 育 集 完成 后 ， 系 统 发 出 1 000 个 查询 。PowerTrust 的 查询 成 功率 在 一 次 信誉 
收集 后 就 能 达到 90% ， 而 EigenTrust 的 成 功率 在 几 轮 收集 后 从 85% 降 到 了 50% ， 这 是 因为 事先 
信任 的 节点 可 能 随时 离开 系统 。 经 过 17 轮 的 信誉 聚集 后 ， EigenTrust 的 查询 成 功率 降 到 了 50% , 
和 没有 信任 的 系统 一 样 。 
8.4.4 加 强 覆 盖 网 络 安全 ， 抵 御 DDoS 攻击 

当 对 等 节点 恶意 攻击 其 他 无 率 节 点 时 ， P2P 网 络 的 安全 性 将 存在 问题 。 攻 击 者 能 够 查看 和 修 
改 数据 包 路 由 或 者 与 其 他 节点 共 谋 来 实施 攻击 和 窃取 内 容 。 为 了 实现 P2P 网 络 的 安全 操作 ， 抵 
御 攻 击 是 非常 重要 的 。 在 P2P 网 络 中 ， 经 常 发 生 的 有 4 种 网 络 攻击 ， l 
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e 如 果 大 量 的 节点 快速 或 者 随机 地 加 入 和 离开 ,那么 PP 系统 将 进 人 扰动 模式 。 扰 动 可 能 
导致 不 一 致 的 行为 或 者 资源 死 锁 。 

e 针对 目标 节点 的 泛 洪 攻击 导致 的 分 布 式 拒绝 服务 攻击 (DDoS), 

e 路 由 攻击 试图 重新 路 由 消息 以 窃取 内 容 或 者 实施 DDoS 攻击 。 

。 攻击 者 阻止 请 求 数据 的 传输 将 导致 存储 /检索 攻击 。 

为 了 抵御 网 络 扰 动 带 来 的 问题 ， 我 们 可 以 强制 节点 签名 所 有 消息 ， 这 样 可 以 容易 地 检测 到 
不 一 致 。 为 了 处 理 DDS 攻击 ， 我 们 可 以 复制 内 容 并 把 内 容 散播 在 网 络 上 。 下 面 的 SOS 例子 给 出 
了 一 个 更 加 复杂 的 方案 。 对 等 节点 可 能 使 用 其 他 节点 的 身份 ， 也 可 能 传输 伪造 内 容 ， 从 而 形成 身 
份 欺骗 攻击 。 抵 御 这 种 攻击 有 两 种 方案 : 一 是 坚持 让 所 有 节点 从 可 信和 的 权威 中 心 获得 签名 证 书 ; 
另 一 种 方案 是 使 用 受 保 护 的 IP 地 址 作为 身份 并 发 送 查 询 来 验证 地 址 。 

为 了 防止 路 由 攻击 ， 一 种 方案 是 迭代 地 使 用 收敛 策略 ， 从 而 使 得 每 一 跳 在 标识 空间 上 向 目 
标 靠近 一 些 。 另 一 种 方案 是 提供 多 路 径 来 绕 过 攻击 者 重新 路 由 消息 。 洋 葱 式 路 由 可 以 隐藏 发 起 
者 的 身份 ， 这 通过 使 用 公 钥 来 递归 地 加 密 到 达 的 消息 和 下 一 跳 信息 来 实现 。 按 照 这 种 方式 ， 每 个 
节点 仅仅 知道 消息 的 直接 发 送 者 和 下 一 跳 接收 者 的 信息 。 为 了 抵御 存储 /检索 攻击 ， 我 们 可 以 复 
制 数 据 对 象 以 加 强 数 据 可 用 性 。 

例 8. 14 抵御 DDoS 攻击 的 SOS 机制 

SOS 是 由 Keromyts 4% A" 在 2002 年 提出 的 安全 覆盖 网 络 服 务 (Secure Overlay Service) 的 缩 
写 。SOS 的 主要 目标 是 允许 大 部 分 合法 的 或 者 认证 过 的 用 户 与 安全 检查 节点 通信 ， 该 检查 节点 可 
以 阻止 DDoS 攻击 继续 发 往 最 终 的 目标 节点 。 这 主要 是 通过 两 种 方案 实现 的 : 使 目标 地 址 难以 复 
制 或 者 合法 用 户 可 能 是 移动 用 户 ， 并 在 改变 地 址 。SOS 的 例子 包括 FBI、 警 察 或 银行 职员 ， 他 们 
经 常 与 他 们 的 中 央 数 据 库 检 查核 对 。 

SOS 系统 可 以 保护 合法 用 户 和 无 襄 目 标 机 器 免 于 DDoS 攻击 ， 同 时 攻击 者 被 阻止 或 者 抓获 。 
为 此 ， 我 们 需要 筛选 好 用 户 到 预先 定义 的 类 别 ， 攻 击 者 不 允许 攻击 很 多 分 布 式 终端 系统 。SOS 系 
统 的 建立 需要 进行 过 滤 操 作 、 把 代理 作为 安全 servlets 隐藏 、 用 隐藏 的 代理 构建 可 靠 的 履 盖 网 络 ， 
以 及 需要 向 将 要 加 入 的 用 户 广 播 可 信 的 访问 点 。SOS 系统 可 以 使 用 Chord 来 组 织 SOAP 服务 器 或 
者 增加 服务 器 的 元 余 提 升 性 能 。SOS 系统 抵御 DDoS 的 更 多 细节 请 参考 文献 [21] 。 a 


8.5 P2P 文件 共享 和 版 权 保护 


P2P 技术 使 得 节点 之 间 以 一 种 分 布 式 的 方式 自由 共享 文件 。 客 户 端 首先 进行 搜索 操作 以 定位 
[523] 拥有 所 需 文件 的 节点 。 客 户 端 直接 从 文件 提供 节点 下 载 文 件 。P2P 文件 共享 的 最 终 目 标 是 向 所 有 

请 求 者 尽快 分 发 内 容 。P2P 内 容 缓 存 是 提高 内 容 下 载 速度 和 流量 本 地 化 的 有 效 手段 。 本 节 介 绍 快 
速 文件 搜索 方法 ， 并 讨论 副本 和 一 致 性 维护 技术 以 提高 文件 分 发 速度 和 成 功率 。 
8. 5.1 快速 搜索 、 副 本 和 一 致 性 

对 P2P 文 件 共 享 应 用 来 说 ， 搜 索 算 法 扮演 着 最 重要 的 角色 。 搜 索 算 法 确定 哪个 节点 拥有 特 
定 的 文件 。 评 价 搜索 算法 的 指标 有 两 个 : 查询 路 径 长 度 和 消息 开销 。 前 者 用 到 达 目 标 节 点 前 查询 
消息 经 过 的 节点 平均 数目 衡量 ， 而 后 者 则 用 搜索 操作 产生 的 查询 消息 平均 数目 来 衡量 。 

基于 结构 化 P2P 覆盖 网 络 和 无 结构 PP 覆盖 网 络 构建 的 文件 共享 系统 所 使 用 的 搜索 算法 是 
不 同 的 。 在 结构 化 P2P 覆盖 网 络 中 ， 数 据 对 象 的 键 和 节点 映射 到 同一 标识 空间 ， 节 点 保存 那些 
键 映射 到 自己 所 负责 标识 区 域 的 数据 对 象 。 搜 索 算法 和 覆盖 网 络 上 的 路 由 算法 类 似 。 然 而 在 无 
结构 P2P 覆盖 网 络 应 用 中 ， 每 个 节点 通常 仅 保存 自己 共享 的 数据 对 和 象 信 息 ， 查 询 消息 在 到 达 目 
的 之 前 需要 访问 大 量 节点 。 下 面 我 们 将 讨论 结构 化 和 无 结构 覆盖 网 络 应 用 。 

在 结构 化 P2P 覆盖 网 络 中 ， 每 个 节点 负责 一 部 分 标识 空间 。 例 如 ， 在 Chod 中 ， 节 点 负责 环 
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标识 空间 中 节点 前 驱 到 自己 的 标识 区 域 。 如 果 数 据 对 象 的 键 映 射 到 节点 x 所 负责 的 标识 区 域 ， 那 
么 数据 对 象 就 存储 在 节点 x 上， 节点 x 称 为 键 的 后 继 。 因 此 ， 搜 索 算 法 的 性 能 和 路 由 算法 的 性 能 
类 似 ， 也 就 是 说 ， 数 据 通 常 在 0(log n) 跳 内 使 用 0(log n) 消息 即 可 被 定位 到 ， 其 中 是 应 用 中 
的 节点 数目 。 

无 结构 P2P 覆盖 网 络 所 使 用 的 搜索 算法 更 复杂 一 些 。 搜 索 算法 基本 上 可 以 归 为 两 类 ; 盲目 
搜索 和 有 知识 的 搜索 。 盲 目 搜索 适合 于 节点 仅 保 存 自 己 共 享 的 文件 信息 的 应 用 ， 而 有 知识 的 搜 
索 适 用 于 节点 保存 其 他 节点 共享 的 文件 信息 的 应 用 。 言 月 搜索 通常 又 被 称 为 泛 洪 〈flooding) 
算法 。 

在 泛 洪 算 法 中 ， 节 点 第 一 次 收 到 消息 后 将 转发 消息 给 个 随机 选择 的 邻居 ， 直 到 消息 的 TTL 
减 为 0。 查 询 消息 在 覆盖 网 络 中 从 请 求 节点 出 发 以 类 似 水 波 传播 的 方式 一 轮 接 一 轮 地 转发 。 泛 洪 
算法 不 可 避免 地 带 来 大 量 的 消息 开销 。 减 小 开销 的 一 种 简单 方法 是 限制 查询 消息 的 TIL， 但 这 会 
增加 那些 距离 请 求 源 远 的 数据 无 法 找到 的 概率 。 已 经 有 各 种 算法 被 提出 来 减少 消息 开销 ， 如 扩 
展 环 和 随机 游 动 等 。 


在 扩展 环 算法 中 ， 查 询 节点 有 一 个 调度 器 n, t, es tlo WHIT, AWEH TIL 设置 
Alto MRA AERA, TTL 增加 到 ;。 ， 最 终 TTL 增加 到 最 大 值 i;。 连 续 的 实验 能 够 以 较 小 
的 查询 路 径 长 度 增加 为 代价 实现 开销 的 减少 。 524 


随机 游 动 算法 以 另 一 种 方式 减 小 开销 ， 查 询 节点 使 用 个 独立 的 随机 游 动 器 ， 每 个 随机 游 动 
器 携带 一 个 查询 消息 并 在 覆盖 网 络 图 上 走动 ， 直 到 定位 到 所 请 求 的 数据 。 和 泛 洪 算法 一 样 ， 随 机 
游 动 算法 同样 存在 TTL 选择 的 问题 。 在 随机 游 动 算法 中 ， 每 轮转 发 仅仅 新 访问 不 个 节点 ， 游 动 
器 周期 性 地 和 查询 节点 联系 以 检查 是 否 继 续 或 者 停止 。 总 体 上 来 说 ， 随 机 游 动 算法 优 于 扩展 
环 算法 ， 而 和 泛 洪 算法 相 比 ， 在 仅仅 小 幅 增加 查询 路 径 长 度 的 情况 下 把 消息 开销 减 小 了 两 个 
数量 级 。 

在 无 结构 P2P 覆盖 网 络 中 ,可 扩展 盲目 搜索 的 设计 原则 如 下 。 第 一 ,算法 应 该 采用 自 适 应 
终止 ,简单 地 限制 TTL 值 并 不 是 有 效 的 方法 ， 因 为 这 样 会 减 小 搜索 范围 。 第 二 ,访问 节点 的 数 
目 应 该 随 搜 索 转发 轮 数 小 幅 增 加 ， 这 是 因为 通常 仅 需 要 访问 一 小 部 分 节点 。 如 果 访 问 的 节点 数 
目 增加 很 快 (如 泛 洪 算法 中 指数 增加 ) ， 最 后 若干 跳 产生 的 消息 大 部 分 都 是 重复 的 。 

如 果 节 点 保存 其 他 节点 共享 的 文件 信息 ， 那 么 盲目 搜索 产生 的 消息 开销 可 以 大 幅度 降低 ， 
有 知识 的 搜索 算法 就 是 为 此 目的 而 设计 的 。 每 个 节点 保存 其 他 节点 共享 的 文件 的 一 些 信息 ， 这 
些 信息 用 来 指导 查询 消息 的 转发 。 最 理想 的 情况 是 每 个 节点 保存 所 有 其 他 节点 共享 的 文件 信息 ， 
这 时 查询 的 路 径 长 度 为 1。 但 是 这 在 实际 中 需要 巨大 的 存储 空间 和 同步 开销 ， 是 不 现实 的 。 

搜索 性 能 也 可 以 通过 覆盖 网 络 拓扑 结构 调整 来 增强 。 在 Gnutella 中 ， 可 以 考虑 节点 在 处 理 能 
力 上 的 差异 性 ， 给 能 力 高 的 节点 分 配 更 多 的 负载 。 能 力 高 的 节点 自 适 应 地 建立 更 多 的 覆盖 网 络 
连接 并 保存 一 跳 邻居 的 文件 索引 。 由 于 随机 游 动 算法 会 偏向 于 到 达 度 高 的 节点 ， 大 部 分 的 查询 
将 被 转发 给 能 力 高 的 节点 并 在 那里 得 到 满足 。 另 一 种 拓扑 调整 是 考虑 节点 的 语义 兴趣 。 语 义 上 
相近 的 节点 被 组 织 到 覆盖 网 络 上 的 相同 语义 集群 。 查 询 被 转发 给 语义 上 相近 的 集群 。 这 其 中 的 
基本 思想 是 如 果 节 点 在 语义 上 是 相关 的 ， 那么 它们 可 能 与 同样 的 查询 相关 。BitTorrent 是 最 流行 
的 P2P 内 容 分 发 应 用 ， 它 借助 swarming 方式 来 分 发 内 容 。 

例 8.15 BitTorrent 文件 共享 网 络 

BitTorrent 是 当前 互联 网 上 广泛 使 用 的 一 种 P2P 内 容 分 发 协议 。 据 Ipoque 的 报道 ， 互 联网 流 
量 的 27% ~55% 是 南 BitTorrent 文件 分 发 系统 产生 的 。BitTorrent 系统 利用 了 参与 节点 的 上 传 带宽 
来 实现 系统 的 高 吞吐 率 。 下 载 同一 个 文件 的 节点 形成 一 个 torent。 不 同 的 torrent 之 问 并 不 通信 。 
图 8-29 给 出 了 由 4 个 功能 组 件 组 成 的 BitTorrent 系统 。 
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8-29 BitTorrent 系统 体系 结构 
注 ; 摘自 “BitTorrent Protocol Specification” , www. bittorrent. org/ protocol. html, 2006, 


种 子 是 那些 已 经 下 载 完整 文件 的 节点 ,在 系统 启动 时 至 少 有 一 个 初始 种 子 。 那 些 没有 得 到 
整个 文件 的 节点 称 为 下 载 者 。 跟 踪 器 (tracker) 跟踪 节点 信息 ,包括 地 址 和 下 载 过 程 信息 ， 它 也 
有 系统 中 种 子 的 信息 。Web 服务 器 保存 torent 文件 ， 该 文件 存储 需要 分 发 的 文件 的 元 数据 和 跟 
RENE Bo 

文件 被 分 割 为 大 小 相同 的 分 片 ， 大 小 可 从 32KB 到 4MB， 但 通常 大 小 为 236KB。 文 件 发 布 者 
使 用 SHA-1 哈 希 函数 为 每 个 分 片 产 生 一 个 哈 希 值 。 该 哈 希 值 存储 在 torrent 文件 中 ， 用 来 在 下 载 
过 程 中 验证 分 片 的 完整 性 。 一 个 文件 分 片 可 进一步 分 为 块 ， 在 这 种 情况 下 ， 每 个 分 片 是 一 个 交易 
单元 ， 而 一 个 块 是 一 个 请 求 单元 。 只 有 当 一 个 分 片 的 所 有 块 下 载 完成 后 ， 该 分 片 才 可 以 给 其 他 节 
点 共享 。 

新 节点 首先 从 Web 服务 器 获取 torrent 文件 ， 通 过 解析 该 文件 获取 跟踪 器 的 地 址 并 向 跟踪 器 
请 求 节 点 的 信息 。 通 常 来 说 ， 跟 踪 器 会 返回 一 个 由 50 个 随机 选择 的 节点 组 成 的 列表 。 一 个 节点 
能 够 发 起 的 TCP 连接 数目 最 多 为 35 个 ， 而 且 一 个 节点 的 所 有 TCP 连接 数目 不 能 超过 35。 如 果 一 
个 节点 维护 的 从 自己 发 起 的 连接 小 于 20 个 ， 那 么 它 重 新 与 跟踪 器 联系 获取 额外 的 节点 。 为 了 更 
新 跟踪 器 对 系统 的 全 局 视图 ， 活 跃 节 点 周期 性 地 (每 30 分 钟 ) 向 跟踪 器 汇报 它们 的 状态 ， 节 点 
在 加 入 和 离开 时 也 汇报 自己 的 状态 。 

每 个 节点 由 一 个 位 向 量 表征 它 拥有 的 分 片 情 况 ， 每 个 位 指示 一 个 分 片 ， 位 向 量 在 邻居 之 间 
交换 。 如 果 节点 y 的 邻居 x 发 现 y 有 一 个 它 没有 的 分 片 ， 那 么 x 向 7 发送 针对 该 分 片 的 “兴趣 ”， 
节点 y 根据 激励 策略 TFT (Tit-for-Tat) 来 决定 是 否 以 及 什么 时 候 向 x 发 送 请 求 的 分 片 。 根 据 激 矶 
机 制 ， 所 有 连接 默认 是 阻塞 (choked) 的 ， 每 个 节点 周期 性 〈 每 10 秒 ) 更 新 从 邻居 下 载 分 片 的 
速度 ， 并 选择 4 个 下 载 速率 最 大 的 邻居 上 传 分 片 。 

TFT 激励 策略 用 来 阻止 “搭便 车 ”行为 ， 即 节点 不 贡献 或 者 贡献 很 小 上 行 带宽 的 行为 。 此 
外 ， 节 点 使 用 乐观 蔚 通 策略 每 30 秒 随 机 选择 一 个 节点 上 传 文件 分 片 ， 乐 观 芍 通 方便 了 没有 或 者 
仅 有 少量 分 片 的 节点 启动 下 载 。 当 了 芍 通 一 个 邻居 节点 时 ， 节 点 选择 在 它 邻居 中 最 少 的 分 片 传输 ， 
这 种 策略 称 为 (局 部 ) 最 少 优先 (Rarest First, RF) 分 片 选 择 。 然 而 ， 对 于 一 个 没有 任何 分 片 
的 节点 来 说 ， 它 随机 选择 一 个 分 片 下 载 。 最 少 优先 使 得 文件 分 片 可 以 在 覆盖 网 络 上 随机 分 布 ， 提 
高 了 文件 分 片 在 邻居 节点 之 间 的 多 样 性 。 | 
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图 8-30 给 出 了 包含 多 个 swarm 的 BitTorrent 网 络 层级 结构 ， 由 一 个 指定 跟踪 器 来 协调 管理 的 
节点 组 成 虚拟 集群 ， 而 一 个 swarm 对 应 一 个 集群 。 当 本 地 swarm 不 能 满足 用 户 请 求 时 ， 从 其 他 
swam 请 求 分 片 ， 因 此 ， 不 同 swam 之 间 可 能 会 有 分 片 交 互 流量 。 不 同 的 跟踪 器 之 间 交 互 最 新 的 
目录 信息 来 形成 全 局 一 至 视图。 这 种 想法 和 图 8-11 所 示 的 KaZaA 层次 结构 很 相似 ， 目 的 是 高 效 
管理 和 缩短 用 户 的 搜索 时 间 。 





E 8-30 多 个 swarm 组 成 的 BitTorrent 系统 流程 示意 ， 每 个 swarm 是 不 同 的 跟踪 器 来 协调 跟踪 的 


— torrent 文件 的 后 级 是 . torrent, torrent 文件 的 ”宣告 ”部 分 指定 了 跟踪 器 的 URL; “info” 
部 分 包 售 文件 的 名 称 、 长 度 、 分 片 长 度 ， 以 及 针对 每 个 分 片 的 SHA-1 AAR, HR 〈 即 
BitTorrent 客户 端 ) 使 用 该 哈 希 值 验证 分 片 的 完整 性 。 跟 踪 器 维护 目前 在 线 的 参与 该 torrent 的 节 
点 列表 。 系 统 没 有 集中 式 跟踪 器 的 系统 实现 分 散 式 跟踪 ， 每 个 节点 都 是 跟踪 器 。Azureus 是 第 一 
ÆT DHT 的 无 集中 式 跟踪 器 的 BitTorrent 客户 端 。 之 后 BitTorrent 的 客户 端 Torent 和 其 他 客户 
端 使 用 了 一 种 称 为 Mainline DHT 的 不 兼容 DHT 系统 。 a 

副本 和 一 致 性 

副本 技术 是 提升 PP 文件 共享 应 用 搜索 性 能 的 重要 手段 之 一 。 一 个 数据 对 象 副本 的 多 少 与 
该 数据 的 流行 度 相 关 。 直 观 上 来 说 ， 数 据 对 象 越 流 行 ， 所 需 副本 就 越 多 。 保 存 数 据 对 象 副本 的 节 
点 的 多 少 直接 影响 着 搜索 性 能 ， 这 是 因为 覆盖 网 络 上 的 数据 副本 越 多 ， 数 据 越 容易 搜索 。 

与 副本 技术 相关 的 一 个 重要 问题 是 副本 一 致 性 的 维护 。 如 果 数 据 对 象 被 一 个 基本 节点 
( 即 拥 有 数据 对 象 副 本 的 节点 ) 改变 或 者 更 新 ， 更 新 内 容 需 要 尽快 传输 给 其 他 副本 节点 。 一 臻 
性 维护 机 制 为 需要 频繁 更 新 内 容 的 应 用 提供 支持 。 一 致 性 维护 的 两 个 关键 问题 是 如 何 跟踪 数 
据 对 象 的 副本 和 如 何 传输 更 新 内 容 给 副本 节点 。 集 中 式 方法 指派 一 个 节点 (通常 是 数据 对 象 
的 拥有 者 ) 来 维护 所 有 副本 节点 的 信息 ， 并 依赖 于 该 节点 转发 更 新 内 容 ， 这 种 方法 缺乏 扩 
展 性 。 
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在 位 置 感知 的 分 布 式 一 致 性 维护 方法 “! 中 ， 一 个 数据 对 象 的 副本 节点 组 成 一 个 副本 组 。 对 
于 仅 有 少量 副本 节点 的 副本 组 来 说 ， 可 以 简单 使 用 集中 式 方法 。 因 此 ， 我 们 主要 关注 包含 很 多 副 
本 节点 的 副本 组 ， 如 流行 数据 对 象 的 副本 组 。 每 个 副本 组 对 应 一 个 辅助 的 层次 化 覆盖 网 络 ， 上 层 
是 基于 DHT 的 ， 由 能 力 高 和 稳定 的 键 的 
节点 组 成 ; 下 层 是 普通 节点 ， 这 些 节点 依 
附 于 物理 上 邻近 的 上 层 节点 。 图 8-31 给 
出 了 这 种 结构 ， 其 中 上 层 是 基于 Chord 环 
结构 构建 的 。 

当 一 个 节点 更 新 了 副本 内 容 后 ， 相 应 
的 上 层 副本 节点 在 上 层 覆 盖 网 络 上 通过 动 
态 连续 分 割 DAT 标识 空间 生成 一 个 d 叉 
树 。 假 设 上 层 副本 节点 收 到 了 与 其 连接 
的 普通 副本 节点 的 更 新 请 求 ， 最 初 x 拥有 
Chord 环 结构 代表 的 整个 标识 空间 。 它 把 
标识 空间 分 割 为 大 小 相等 的 d 块 。 每 一 块 
中 沿 环 状 结构 顺 时 针 方 向 的 第 一 个 节点 作 
为 该 标识 区 域 的 代表 节点 。 所 有 代表 节点 
构成 根 节点 % 的 孩子 节点 集 。 每 个 区 域 再 由 代表 节点 按照 同样 的 方法 分 为 d 个 大 小 相等 的 更 小 的 
区 域 ， 依 此 继续 ， 直 到 在 分 割 所 得 区 域内 仅 有 一 个 节点 为 止 。 

更 新 内 容 在 树 状 结构 上 自 顶 向 下 传输 ， 上 层 副 本 节点 负责 向 与 其 连接 的 普通 副本 节点 转发 
更 新 内 容 。 因 为 上 层 节点 和 与 其 连接 的 普通 节点 在 物理 上 是 邻近 的 ， 所 以 副本 内 容 传播 很 快 ， 而 
且 可 以 大 幅 节省 网 络 带宽 。 树 状 结构 在 更 新 操作 完成 后 自 底 向 上 销毁 ， 以 节约 维护 开销 。 更 新 时 
间 和 控制 开销 的 分 析 详 见 文献 [25]. 

8.5.2 P2P 内 容 分 发 网 络 

本 节 首 先 将 介绍 三 代 内 容 分 发 网 络 (Content Delivery Networks，CDN) ， 接 着 讨论 P2P 技术 如 
何 提高 CDN 的 服务 质量 。 

8.5.2.1 三 代 CDN 

表 8-6 比较 了 过 去 30 年 三 代 CDN。 早 期 的 在 线 分 发 系统 使 用 FTP 或 HTTP 服务 的 客户 端 / 服 
务 器 体系 结构 ， 这 种 结构 受到 单个 服务 器 处 理 能 力 的 限制 。 对 于 小 文件 的 分 发 ， 这 种 方法 仍然 是 
可 行 的 ， 例 子 包括 Apache, GetRight 和 CuteFTP 服务 等 。 第 二 代 CDN 的 标志 是 多 代理 服务 器 的 使 
用 和 用 于 分 发 视频 流 与 软件 的 大 规模 分 发 网 络 。 例 8. 14 给 出 了 大 规模 CDN 的 一 个 很 好 的 例 
子 一 一 Akamai CDN。 






Chord 环 


8-31 一 个 副本 组 的 辅助 结构 


表 8-6 三 代 内 容 分 发 网 络 












系统 所 属 代 


第 一 代 : 客户 | 客户 端 使 用 FTP 
端 / 服 务 器 系统 


例子 系统 和 网 站 
Apache (www. apache. com/) 

GetRight (www. getright. com/ ) 
CuteFTP (www. cuteftp. com/) 








客户 端 与 多 个 服 
务 器 连接 


Akamai (www. akamai. com/) 
SyncCast (www. synccast. com/ ) 
















BitTorrent (www. bittorrent. org/) 
eDonkey (www. edonkey. com/) 
eMule (www. emule. org/) 


第 三 代 : P2P 
文件 共享 系统 


低 ; 节点 不 安全 | 下 载 速 度 并 不 重 
要 的 大 文件 下 载 





P2P 覆盖 网 络 
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第 三 代 CDN 的 出 现 的 标志 是 P2P 文件 共享 网 络 ， 如 BitTorrent 和 eMule 等 。 毫 无 疑问 ，P2P 
网 络 比 前 两 代 的 CDN 更 加 高 效 ， 但 是 P2P 文件 共享 系统 中 严重 的 版 权 侵犯 阻碍 了 开放 P2P 网 络 
在 商业 内 容 分 发 网 络 中 的 应 用 。 下 面 两 小 节 将 讨论 在 线 盗 版 问题 。 有 选择 的 内 容 污染 是 解决 这 
个 问题 的 方法 之 一 。 

例 8. 16 全球 内 容 分 发 网 络 

在 2004 年 ，3 000 多 家 公司 使 用 CDN， 为 此 每 月 开销 在 2 000 万 美元 以 上 。 此 后 ，CDN 提供 
商 以 接近 每 年 翻番 的 收入 增长 。 在 2005 年 ， 全 球 CDN 由 传输 新 闻 、 电 影 、 体 育 、 音 乐 和 视频 内 
容 而 产生 的 收入 达到 4.5 亿美 元 。 图 8-32 给 出 了 按照 Akamai 技术 系统 而 刻画 出 的 全 球 CDN 概念 
体系 结构 。 截 至 2006 £, Akamai CDN 为 80% 的 内 容 分 发 应 用 提供 服务 ， 全 球 共 用 了 分 布 在 62 
个 国家 、1 000 多 个 网 络 中 的 超过 1. 2 万 个 代理 服务 器 。 这 个 数字 现在 更 大 。 


位于 美国 的 
服务 器 


代理 服务 器 RB、 位 于 中 国 的 
一 | Gee 


位 于 澳大利亚 位 于 英国 的 
T S CRIS AE 


m 
eola 


"a 


位 于 澳大利亚 
EA] 个 户 vi 


内 容 分 发 网 络 概观 





图 8-32 全球 CDN 概念 ，CDN 使 用 了 位 于 主要 区 域 或 国家 的 代理 服务 器 
iż: 由 Pallis 和 Vakali[37] 提 供 。 


代理 服务 器 是 分 发 数字 内 容 的 缓存 中 心 ， 用 来 提高 传输 效率 、 存 储 效 率 、 访 问 速度 和 容 
错 能 力 。 每 个 代理 中 心 负责 向 该 国家 或 者 地 区 的 所 有 用 户 分 发 请 求 的 内 容 ，CDN 内 容 分 发 中 
心 协调 代理 服务 器 之 间 的 流量 。 出 于 版 权 保护 的 考虑 ， 这 里 并 未 把 P2P 技术 用 到 商业 内 容 分 
发 中 。 m 

P2P 网 络 不 需要 很 多 昂贵 的 服务 器 来 传输 内 容 。 数 字 内 容 在 节点 之 间 分 发 和 共享 ， 它 可 以 提 
高 传统 CDN 的 内 容 可 用 性 和 系统 扩展 性 。 但 是 在 P2P 网 络 中 ,快速 增长 的 版 权 侵犯 阻碍 了 数字 
内 容 的 发 布 ， 非 法 P2P 内 容 分 发 的 主要 来 源 在 于 节点 共 谋 ， 与 其 他 节点 或 者 盗版 者 共享 受 版 权 
保护 的 内 容 。 

数字 水 印 技术 是 数字 版 权 保护 常用 的 方法 ， 它 在 文件 中 加 入 水 印 ， 这 样 当 发 现 盗版 版 本 时 
就 可 以 通过 每 份 内 容 的 唯一 水 印 找到 最 早 的 盗版 者 。 在 P2P 网 络 中 ， 所 有 节点 共享 完全 一 样 的 
文件 〈 如 果 没 有 被 污染 ) ， 这 个 特征 大 大 降低 了 水 印 的 作用 ， 所 以 电子 水 印 不 适用 于 P2P 文件 共 
F. PP 内 容 分 发 网 络 把 大 文件 分 割 为 小 的 块 ， 这 样 一 个 节点 就 可 以 从 多 个 源 同 时 下 载 多 个 块 。 
文件 分 块 增加 了 可 用 性 ， 减 小 了 下 载 时 间 。 表 8-7 总 结 了 三 种 主要 的 P2P CDN, 
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分 块 机 制 


哈 希 分 布 


抵御 污染 能 力 


下 载 策略 


表 8-7 P2P 内 容 网 络 中 的 文件 分 块 和 哈 希 机 制 





BitTorrent Rik 


Gnutella 家 族 





文件 被 分 割 为 固定 大 小 
(256KB) 的 分 片 


节点 在 运行 时 协商 分 块 的 大 
小 ， 通 常 是 64KB/ 块 





TER S| SCH PRASAD HB 
的 SHA 哈 希 值 


对 整个 文件 使 用 SHA 哈 希 生 
成 一 个 唯一 的 文件 标识 ， 在 分 
块 级 别 无 哈 希 











eMule 家 族 


文件 分 成 大 小 为 9 500KB 的 片段 ， 每 
个 片段 分 成 53 个 大 小 为 180KB 的 块 


在 片段 级 别 的 MD-4 险 希 ， 节 点 交 
互 哈 希 集 来 检测 损坏 的 内 容 





分 片 级 别 的 污染 检测 ， 每 个 
分 片 独立 处 理 


文件 只 有 在 全 部 下 载 后 才能 
检测 出 是 否 污染 ， 如 果 被 污染 ， 
则 开销 很 大 


如 果 片 段 哈 希 集 没有 被 污染 ， 那 么 
在 片段 级 别 检测 污染 





保留 干净 分 片 ， 扔 掉 被 污染 
的 分 片 ， 重 复 下 载 直 到 所 有 分 
块 是 干净 的 


重复 下 载 整个 文件 ， 直 到 得 
到 全 部 干净 的 分 片 ， 一 种 耗 时 
策略 





保留 干净 片段 ， 丢 掉 被 污染 的 片 
段 ， 重 复 下 载 ， 直 到 所 有 片段 是 干净 
的 为 止 





举例 


BitTorrent, Snark, BitComet, 
BNBT、 BitTyrant, Azureus, JTor- 


Gnutella, KaZaA. LimeWire, 
Phex、 Freenet, BareShare. Swap- 


eMule, aMule, Shareaza, iMule, 
Morpheus, eDonkey, FastTrack 等 
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per, Ares 等 


rent 等 





同一 种 类 型 的 PP 网 络 具 有 一 些 共同 的 特性 ， 它 们 是 BitTorrent, Gnutella 和 eMule 的 变种 或 
者 改良 。 不 同 种 类 P2P 应 用 的 主要 区 别 是 所 使 用 的 文件 分 块 或 者 哈 希 协议 不 同 。 在 本 书 撰写 时 ， 
这 些 P2P 网 络 都 没有 很 好 的 版 权 保护 支持 。BitTorrent 家 族 在 文件 的 分 片 或 者 分 块 这 一 级 实施 哈 
希 ， 这 使 得 文件 很 难 被 污染 。Gnutella 家 族 在 文件 这 一 级 实施 哈 希 ， 因 此 ， 文 件 很 容易 被 污染 。 
而 eMule 家 族 在 带 有 固定 分 块 的 片段 级 实施 哈 希 ， 污 染 难 易 程 度 介 于 上 述 两 种 家 族 之 间 。 

三 种 P2P 网 络 家 族 在 检测 和 识别 污染 文件 块 的 能 力 方面 是 不 同 的 。BitTorrent 家 族 保存 干净 
的 文件 分 块 并 抛弃 被 污染 的 分 块 ，Gnutella 家 族 只 有 在 完全 下 载 完 文件 后 才能 检测 出 被 污染 的 文 
件 块 ; 由 于 eMule 家 族 是 在 片段 一 级 哈 希 和 验证 ， 所 以 它 要 人 么 保存 片段 的 所 有 53 FOR, BA 
全 部 丢弃 。 

8.5.2.2 内 容 分 发 方法 

PP 内 容 分 发 应 用 利用 互联 网 边缘 充足 的 计算 资源 来 分 发 内 容 ， 对 同一 内 容 感 兴趣 的 节点 组 
成 一 个 P2P 覆盖 网 络 ， 数 据 从 数据 源 发 出 ， 在 覆盖 网 络 上 的 节点 之 间 存 储 和 转发 。 总 体 上 来 说 ， 
有 三 种 方法 分 发 数据 内 容 ， 基于 泛 洪 的 方法 、 基 于 树 的 方法 和 基于 swam 的 方法 。 在 基于 泛 洪 的 
方法 中 ， 数 据 内 容 在 覆盖 网 络 上 泛 洪 ， 这 将 会 产生 无 法 接受 的 大 量 重 复 分 发 。 

基于 树 的 方法 沿 着 树 状 结构 来 分 发 内 容 。 因 为 对 等 节点 可 能 在 任意 时 刻 随意 加 入 、 离 开 ， 甚 
至 失效 ， 维 护 树 状 结构 是 一 个 极 具 挑战 性 的 任务 。 我 们 可 以 建立 多 个 树 状 结构 来 分 发 内 容 ， 此 时 
数据 内 容 被 分 割 为 若干 个 分 块 ， 每 个 分 块 沿 着 一 棵 树 传播 。 在 所 有 树 状 结构 中 均 出 现 的 节点 将 
会 收 到 整个 数据 内 容 。 基 于 多 个 树 的 方法 实现 了 快速 内 容 分 发 并 提高 了 数据 分 发 的 鲁 棒 性 ,但 
节点 扰动 带 来 的 问题 仍然 是 这 种 方法 的 最 主要 的 问题 。 

基于 swarm 的 方法 建立 在 网 状 (mesh) 覆盖 网 络 上 ， 也 称 为 数据 驱动 的 方法 。 数 据 内 容 是 
由 参与 节点 “ 拉 ” 过 去 的 ， 而 不 是 从 数据 源 主动 分 发 。 数 据 内 容 分 割 为 多 个 小 的 块 ， 每 个 节点 
维护 两 个 “窗口 ”， 分 别 指示 它 所 拥有 的 分 块 和 它 所 需要 的 分 块 。 节 点 与 其 邻居 周期 性 地 交换 
“窗口 ”以 主动 获取 所 缺 的 分 块 。 

尽管 基于 swam 的 内 容 分 发 所 需 时 间 比 基于 树 的 方法 长 ， 但 由 于 其 良好 的 扩展 性 和 易于 实现 
等 特性 ， 这 种 方法 已 被 广泛 运用 到 现 有 的 应 用 中 (如 PPlive, BitTorrent 等 ) 。 节 点 获取 分 块 的 顺 
序 是 随机 的 ， 也 就 是 说 ， 没 有 特别 的 调度 机 制 ， 这 种 思路 适用 于 那些 不 关心 分 块 到 达 顺 序 的 应 用 
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(如 BitTorrent) 。 但 是 某 些 应 用 的 确 需要 对 到 达 顺 序 进行 控制 〈 如 视频 直播 应 用 ) ， 数 据 分 块 必 
须 在 播放 截止 时 间 前 到 达 节 点 ， 和 否则 分 块 是 没 用 的 。 对 这 些 应 用 ， 通 常 的 规则 是 节点 获取 播放 时 
间 最 近 的 分 块 或 者 在 其 邻居 中 副本 最 少 的 分 块 。 : 

最 近 ，P2P 技术 逐渐 被 应 用 在 动态 信息 分 发 环境 中 ， 对 同一 事件 感 兴趣 的 节点 组 成 一 个 P2P 
覆盖 网 络 。 数 据 在 节点 上 动态 生成 ， 也 就 是 说 ， 数 据 源 不 再 是 固定 的 ， 数 据 在 节点 之 间 复 制 和 转 
发 。 在 这 种 环境 下 ， 数 据 分 发 算法 需要 把 任意 节点 上 出 现 的 数据 以 相对 较 小 的 网 络 资源 消耗 尽 
快 分 发 到 所 有 节点 。 基 于 swam 的 方法 并 不 适合 这 种 场景 ， 因 为 它们 需要 在 延迟 和 开销 之 间 折 
中 。 也 就 是 说 ， 为 了 减 小 数据 分 发 延迟 ,“ 窗 口 ” 信 息 交 互 的 间隔 就 得 缩短 ， 这 势必 会 增加 控制 
开销 。 

另 一 方面 ， 增 加 “窗口 ”的 交互 的 间隔 会 增加 分 发 延迟 。 为 每 个 可 能 的 数据 源 建立 一 个 树 
状 结构 分 发 数据 是 不 现实 的 ， 因 为 维护 如 此 多 的 树 状 结构 所 产生 开销 是 非常 巨大 的 。 为 所 有 数 
据 源 建立 一 个 无 向 树 状 结构 对 控制 开销 是 最 优 的 ， 但 如 果 数 据 源 是 树 的 叶子 节点 ， 数 据 将 需要 
2h 跳 才 能 传播 给 所 有 成 员 节 点 ， 其 中 是 树 的 高 度 。 这 种 方案 的 另 一 个 问题 是 如 何在 节点 扰动 
的 情况 下 维护 树 状 结构 。 532 
8. 5.3 版 权 保护 问题 和 解决 方案 

P2P 网 络 能 够 高 效 地 把 大 文件 分 发 给 大 量 节点 。 但 目前 的 P2P 网 络 由 于 音乐 、 游 戏 、 视 频 和 
流行 软件 的 非法 下 载 而 被 滥用 。 这 不 仅 导致 媒体 和 内 容 产 业 蒙 受 了 巨大 的 经 济 损失 ， 也 阻碍 了 
P2P 技术 的 商用 。 非 法 文件 共享 的 主要 来 源 在 于 无 视 版 权 法 律 而 与 盗版 者 共 谋 和 串通 的 节点 。 为 
了 解决 共 谋 带 来 的 问题 ,文献 [31] 针对 P2P 内 容 分 发 提出 了 一 种 版 权 保 护 的 系统 。 

系统 的 目标 是 阻止 P2P CDN 内 的 共 谋 盗版 行为 ， 特 别 地 ， 可 以 保护 随时 间 流 逝 其 价值 在 减 
少 的 大 规模 易 腐 内 容 的 版 权 。 传 统 CDN 需要 使 用 大 量 分 布 在 WAN 上 的 代理 内 容 服务 器 。 内 容 分 
发 者 需要 在 大 量 服务 器 上 复制 或 者 缓存 内 容 ， 维 护 这 样 的 CDN 所 需 带 宽 和 资源 是 非常 昂贵 的 。 
PP 内 容 网 络 大 幅 降低 了 内 容 分 发 的 成 本 ， 因 为 它 不 需要 大 量 的 内 容 服务 器 ， 而 是 利用 了 开放 网 
络 。 由 于 每 个 节点 都 可 以 作为 内 容 提供 商 ， 因 此 ，P2P 网 络 提高 了 内 容 可 用 性 。 此 外 ， 由 于 节点 
越 多 ， 内 容 分 发 速度 越 快 ， 因 此 ， 它 天 然 具 有 良好 的 扩展 性 。 

遵循 版 权 法 律 而 不 随意 共享 内 容 的 节点 被 称 为 诚实 或 合法 的 客户 端 ， 而 试图 在 不 付费 或 者 
不 被 授权 的 情况 下 下 载 某 些 内 容 文件 的 节点 称 为 盗版 者 ， 付 费用 户 如 果 向 盗版 者 共享 内 容 则 称 
为 共 谋 者 。 盗 版 者 、 共 谋 者 和 遵 纪 守 法 的 客户 端 共存 在 P2P 网 络 中 。 内 容 污染 通过 刻意 算 改 次 
版 者 请 求 的 文件 而 实现 。 由 美国 唱片 工业 协会 (Record Industry Association of America , RIAA) 
和 美国 电影 协会 (Motion Picture Association of America, MPAA) 支持 的 媒体 工业 已 经 使 用 了 未 经 
筛选 的 强力 内 容 污染 来 遏制 开放 P2P 文件 共享 网 络 中 的 盗版 ,但 他 们 预防 的 效果 是 不 明确 和 有 
争议 的 。 

虽然 媒体 工业 对 所 有 的 PP 文件 共享 服务 实施 强力 版 权 保护 ， 但 合法 客户 仍 可 以 享受 开放 
P2P 网 络 提供 的 灵活 和 便捷 性 。 该 机 制 即 使 在 有 共 谋 节点 的 情况 下 仍 可 阻止 盗版 者 下 载 版 权 保护 
的 文件 ， 并 使 用 信誉 机 制 来 检测 出 共 谋 者 。 这 种 版 权 保护 的 P2P 网 络 对 媒体 工业 和 互联 网 用 户 
群体 都 是 有 利 的 5" 。 图 8-33 给 出 了 一 种 由 Lou 和 Hwang 等 人 提出 的 版 权 保护 P2P 网 络 ""! ， 该 网 
络 是 建立 在 大 量 节点 之 上 的 ， 存 在 4 种 节点 : 客户 端 (诚实 或 者 合法 节点 ) 、 共 谋 者 〈 向 盗版 者 
共享 内 容 的 付费 用 户 ) 、 分 布 式 代 理 (由 内 容 拥 有 者 操作 的 可 信和 节点 ) 和 盗版 者 (非法 下 载 内 容 
文件 的 未 付费 客户 端 ) 。 | 

在 加 入 系统 时 ， 客 户 端 向 处 理 购 买 和 账单 事务 的 交易 服务 器 提交 请 求 。 私 钥 产 生 器 (Private 
Key Generator, PKG) 使 用 基于 身份 的 签名 〈Identity-Based Signature, IBS) 生成 私有 密 钥 ， 从 而 
对 节点 之 间 的 通信 加 密 。PKG 的 作用 和 PKI 服务 中 的 证 书 颁发 机 构 (CA) 作用 类 似 ， 不 同 的 是 
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CA 生成 的 公共 /私有 密 钥 对 ， 而 PKG 仅仅 生成 私有 密 钥 。 











盗版 者 识别 
共 谋 者 检测 
内 容 分 发 
预先 污染 


图 8-33 ”针对 版 权 保护 内 容 分 发 的 安全 P2P 平 台 
注 ， 由 Lou 和 Hwang[31] 提供 。 


交易 服务 器 和 PKG 仅仅 在 节点 加 入 P2P 网 络 时 使 用 。 使 用 IBS 后 ， 节 点 之 间 的 通信 不 再 需 
要 显 式 的 公 钥 ， 因 为 通信 双方 的 身份 就 是 各 自 的 公 钥 。 在 该 系统 中 ， 文 件 分 发 和 版 权 保护 完全 是 
分 布 式 的 。 根 据 以 往 的 经 验 ， 任 何 时 刻 共享 或 者 请 求 同 一 文件 的 节点 数目 大 概 在 几 百 个 。 根 据 节 
点 的 多 少 ， 系 统 仅 仅 需 要 少量 的 分 布 式 代理 。 例 如 ， 一 个 包含 2 000 个 节点 的 系统 仅 需要 10 台 
PC 作为 分 布 式 代理 就 足够 了 。 这 些 代 理 授权 用 户 下 载 并 阻止 未 付费 用 户 的 盗版 行为 。 

付费 客户 端 、 共 谋 者 和 盗版 者 在 网 络 中 共存 ， 他 们 没有 明确 的 标识 来 标明 自己 的 身份 ， 版 权 
保护 网 络 可 以 自动 把 他 们 识别 出 来 。 每 个 客户 端 被 分 给 一 个 引导 代理 作为 加 入 点 ， 该 代理 是 从 
分 布 式 代理 中 随机 选 出 的 。 在 现在 的 P2P 网 络 中 ， 节 点 并 不 经 过 验证 ， 节 点 的 端 地 址 (IP 地 
址 + 端口 号 ) 而 不 是 用 户 名 作为 节点 的 身份 。 一 个 节点 如 果 通 过 它 的 监听 端口 可 达 ， 就 认为 它 
是 完全 连接 在 网 络 中 。 

表 8-8 总 结 了 构建 一 个 可 信 P2P 系统 所 需 的 关键 协议 和 机 制 。 修 改 后 的 文件 索引 格式 使 得 我 
们 可 以 检测 出 盗版 者 ， 节 点 授权 协议 (Peer Authorization Protocol, PAP) 为 客户 进行 合法 下 载 权 
利 的 授权 ， 文 件 分 发 者 使 用 内 容 污染 来 损坏 未 付费 用 户 的 非法 文件 下 载 ， 系 统 通过 随机 共 谋 检 
测 来 进一步 得 到 加 强 。 在 本 系统 中 ， 一 个 内 容 文件 必须 完全 下 载 后 才 是 有 用 的 。 通 过 使 用 大 家 都 
知道 的 密码 来 压缩 和 加 密 文件 ， 这 个 限制 可 以 非常 容易 实现 。 这 里 的 加 密 不 提供 任何 对 内 容 的 
保护 ， 而 是 用 来 把 整个 文件 组 合 起 来 。 


表 8-8 P2P 网 络 中 的 版 权 保护 机 制 

















机 制 协议 要 求 
安全 文件 索引 | 修改 文件 索引 格式 以 包括 令 牌 和 IBS 签名 
PAP 节点 向 引导 代理 发 送 数字 收据 并 获得 授权 令 牌 ， 令 牌 需要 周期 性 更 新 
预先 内 容 污 染 令 牌 和 1BS 签名 检测 所 有 下 载 请 求 和 响应 ， 并 相应 地 发 送 干 净 或 者 污染 的 内 容 
随机 共 谋 预防 分 布 式 代理 随机 设置 骗局 来 探测 共 谋 者 ， 共 谋 报告 根据 客户 的 信任 值 而 赋予 不 同 的 权重 





8.5.4 P2P 网 络 中 的 共 谋 盗版 预防 
图 8-34 给 出 了 预先 内 容 污 染 的 概念 。 如 果 一 个 盗版 者 向 分 布 式 代理 或 者 客户 端 发 送 下 载 请 
求 ， 根 据 协议 定义 ， 它 将 收 到 受 污 染 的 文件 块 ， 如 果 下 载 请 求 是 发 给 共 谋 者 ， 盗 版 者 将 收 到 干净 
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的 文件 块 ; 如果 盗 版 者 向 其 他 盗版 者 共享 文件 块 ， 它 将 把 污染 的 文件 块 传 出 去 。 所 以 拒绝 盗版 者 
请 求 的 关键 是 发 送 污 染 的 文件 块 。 否 则 ， 盗 版 者 仍然 能 够 从 共 谋 者 获得 干净 的 文件 块 组 成 干净 
的 文件 。 应 用 文件 污染 后 ， 我 们 利用 了 P2P 网 络 受 限 的 污染 检测 能 力 ， 从 而 强制 盗版 者 丢弃 与 
污染 文件 块 一 同 下 载 的 干净 文件 块 。 文 件 污染 的 原理 是 ， 如 果 盗 版 者 一 直下 载 受 损 的 文件 ， 那 么 
他 将 最 终 因 不 能 忍受 而 放弃 对 版 权 保 护 内 容 的 下 载 。 

8.5.4.1 随机 共 谋 者 识别 

如 GossipTrust ® 论文 所 述 ， BEA (gossip) 协议 和 power 节点 对 P2P 网 络 中 信誉 收集 过 程 的 
加 速 起 着 重要 作用 。 随 机 谣言 机 制 能 够 以 分 布 式 的 方式 在 所 有 节点 之 间 达 成 一 致 ， 因 为 这 种 机 
制 充分 利用 了 大 规模 P2P 网 络 中 活跃 节点 之 间 的 并 行 能 力 。 图 8-34 给 出 了 用 以 识别 共 谋 者 的 简 
化 版 GossipTrust 系统 。 





P2P 网 络 






) SSS ARB) 
盗版 者 
FY - 受 污染 的 分 世 





J) = 干净 的 分 块 


图 8-34 可 信 P2P 网 络 中 的 预先 污染 ， 合 法 客户 接收 到 干净 的 文件 分 块 〈 白 色 ) ， 盗 版 者 接收 到 
污染 后 的 文件 分 块 《阴影 ) 

注 ; 由 Lou 和 Hwang!*"! 提供。 

其 思想 是 每 个 文件 有 一 个 带 有 共 谋 率 的 {节点 , 文件 | 对 ， 共 谋 率 为 0 表示 节点 从 来 没有 
被 检测 为 共 谋 者 ， 而 如 果 节 点 向 非法 的 下 载 请 求 回 应 了 干净 的 内 容 ， 那 么 它 的 共 谋 率 将 被 报告 
为 1。 共 谋 率 以 一 种 与 eBay 中 收集 节点 信誉 值 一 样 的 方式 来 累计 。 图 8-35 给 出 了 共 谋 行为 检测 
过 程 。 分 布 式 代理 随机 招募 一 些 称 为 诱饵 的 客户 来 向 可 疑 节点 发 送 非法 下 载 请 求 。 如 果 一 个 
非法 请 求 获得 了 干净 的 文件 分 块 ， 诱 饵 客户 就 汇报 一 个 共 谋 事件 。 因 为 诱饵 客户 是 随机 选择 
的 ， 共 谋事 件 的 汇报 可 能 会 由 于 错误 或 者 欺骗 而 变 得 不 可 行 ， 所 以 我 们 需要 信誉 系统 来 第 选 
节点 。 

文献 [31] 进一步 提出 了 一 种 新 的 节点 授权 协议 PAP 来 区 分 盗版 者 和 合法 客户 。 盗 版 者 在 重 
复 的 下 载 请 求 中 将 收 到 受 污染 的 文件 分 块 ， 这 样 盗版 者 在 可 以 容忍 的 时 间 内 不 可 能 成 功 下载 一 
个 文件 。 根 据 模拟 实验 结果 ， 对 于 Gnutella, KaZaA 和 Freenet， 版 权 保护 预防 率 达 到 了 99.9% , 
而 对 于 eMule eDonkey, Morpheus 和 其 他 应 用 ， 预 防 率 在 85% ~ 98% 之 间 。 该 预防 系统 对 于 
BitTorrent 和 Azureus 等 对 污染 有 抵御 能 力 的 系统 来 说 效率 不 高 。 该 系统 给 出 了 一 种 低 开销 的 、 针 
对 版 权 保护 内 容 分 发 的 P2P 文件 污染 方法 。 该 方法 的 优势 体现 在 快速 传递 、 内 容 的 高 可 用 性 和 
版 权 保 护 兼 容 (参见 图 8-36) 。 
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分 布 式 代理 
图 8-35 ”分布 式 代理 随机 招募 一 些 客户 ( 端 ) 来 探测 可 疑 节 点 ， 当 节点 向 非法 请 求 提供 版 权 保 


护 文件 时 ， 汇 报 共 谋 行为 
注 ; 由 Lou 和 Hwang[211 提 供 。 


交易 服务 器 客户 端 引导 代理 PKG 


消息 2: 电子 收据 签名 
消息 3: 认证 请 求 






消息 4: 私 钥 请 求 
消息 5: 私 钥 应 答 
消息 6: 认证 令 牌 





图 8-36 版 权 保 护 PRP 内 容 分 发 系统 中 节点 加 入 过 程 ， 使 用 了 7 个 消息 ， 包 含 4 个 实体 
注 ; 由 Lou 和 Hwang!3") 提供 。 


8.5.4.2 盗版 者 下 载 时 间 和 成 功率 

为 了 测试 可 信 PP 系统 的 局 限 性 ， 实 验 中 使 用 了 不 同 大 小 的 文件 。 预 防 成 功率 有 B 定义 为 在 可 
BRT BO 内 盗版 者 下 载 一 个 文件 的 失败 率 。 对 于 一 个 700MB 的 CD-ROM 镜像 文件 来 说 ，8 
设置 为 20 天 ， 而 对 于 4.5GB 的 电影 文件 来 说 ，9 设置 为 30 天 。 

图 8-37 模拟 了 三 种 P2P 网 络 家 族 ， 其 中 有 100 个 付费 客户 ，900 个 共 谋 者 和 1 000 个 盗版 
者 。90% 的 盗版 者 所 模拟 的 场景 与 真实 P2P 网 络 场景 非常 不 同 。 这 个 实验 是 为 了 模拟 一 种 最 坏 
场景 ， 在 该 场景 中 ， 所 有 盗版 者 使 用 一 种 激进 的 节点 选择 策略 。 盗 版 者 在 时 间 窗 口 9 内 无 法 成 功 
下 载 一 个 干净 文件 的 概率 作为 近似 成 功率 B 的 估算 。 所 有 B 曲线 都 从 100% 开始 。 

如 果 没 有 文件 污染 方法 ， 客 户 平均 下 载 时 间 为 1.5 小 时 。Gnutella RK (包括 KaZaA 和 
LimeWire) 的 盗版 共 谋 预 防 的 成 功率 非常 高 (高 于 99.9% ) eMule 网 络 的 平均 成 功率 在 85% 
(容忍 窗口 6 大 小 为 20 天) 。 这 样 的 成 功率 是 可 以 满足 应 用 的 ， 因 为 大 部 分 盗版 者 在 经 过 几 天 不 
成 功 的 尝试 后 就 会 放弃 。 对 于 不 同 大 小 的 文件 ， 对 Gnutella 家 族 的 应 用 来 说 ， 盗 版 共 谋 预防 成 功 
率 都 接近 99. 9% 。 
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在 图 8-37 H, WRAAE RERA 20K, eMule 网 络 对 于 4. 5GB 的 文件 来 说 平均 成 功率 
为 98% ， 而 对 于 700MB 的 文件 来 说 平均 成 功率 为 85% 。 相 比 之 下 ，BitTorent 网 络 ， 盗 版 者 平均 
需要 100 分 钟 下 载 700MB 的 文件 ， 仅 仅 比 付费 用 户 长 了 一 点 。 因 此 ， 成 功率 在 2 小 时 前 迅速 下 
降 。 这 说 明 由 于 BitTorrent 系统 的 超 强 检测 文件 污染 的 能 力 ， 所 提出 的 预防 系统 对 BitTorrent 系统 
并 不 是 很 成 功 。 


预防 成 功率 8 


eMule —G— 
BitTorrent —A— 
Gnutella —¥— A 





1 23 10 24 100 240 480 1000 
以 对 数 规模 显示 的 容忍 阔 值 9( 小 时 ) 


图 8-37 针对 三 种 系统 的 预防 成 功率 对 比 
注 ; 由 Lou 和 Hwang! l 344, 


8.6 参考 文献 与 习题 


在 IEEE Infocom 2004 E, Ross 和 Rubestein!™ t P2P 系统 做 了 一 个 很 好 的 教程 。P2P 的 关键 
概念 可 以 在 维基 百科 '” LRA, Buford 等 人 在 其 2008 年 出 版 的 书籍 四 中 讨论 了 PP 网 络 和 应 
用 。 文 献 [13，28，52] 中 研究 了 无 结构 PP 覆盖 网 络 构建 时 的 问题 ， 而 文献 [5] 讨 论 了 PP 计算 
的 关键 技术 。NetTube'" 利用 了 视频 的 高 度 诊 类 属性 和 P2P 技术 来 提升 YouTube 服务 。Keromytis 
等 人 在 文献 [21 ] 中 对 SOS 体系 结构 和 操作 需求 进行 了 报告 。 文 献 [3] 和 文献 [15] 分 别 分 析 和 测 
ET Skype 协议 。 

文献 [21] 研 究 了 一 致 哈 希 。 基 于 一 致 哈 希 的 Chord 是 Stoica 等 人 [4 最 早 提出 的 ， 随 后 被 许 
SAA ap gl? , Ratnasamy 等 人 提出 了 CAN“! ， 而 Rowstron 和 Drusche 等 人 则 提出 了 
Pastry [39] 。 文 献 [35] 提 出 了 Kademlia 结构 化 P2P 网 络 ， 而 文献 [44] 则 对 该 网 络 进行 了 测量 。 
文献 [60] 和 [17] 分 别 研究 和 测量 了 Gnutella， 而 Freenet 是 在 文献 [10] 中 提出 的 。 文 献 [32] 研 究 
了 混合 覆盖 网 络 。Sarioiu 等 人 ”测量 并 比较 了 Gnutella 和 Napster。 文 献 [7，16，54] 研 究 了 结构 
化 P2P 网 络 中 的 网 络 邻 近 性 问题 ， 而 文献 [28，52 ] 则 研究 了 无 结构 PP 网 络 中 的 邻近 性 问题 。 
Kleinberg 等 人 '*1 研 究 了 小 世界 网 络 。 

P2P 抗 扰动 和 容错 的 相关 讨论 见 文献 [12，14，23，24，51] ， 而 P2P 计算 的 信任 模型 则 是 在 
文献 [19，27，43，49] 中 研究 的 。 文献 [20，53，57] 分 别 研究 了 三 种 POP 信誉 系统 ， 即 
EigenTrust PeerTrust 和 PowerTrust。 研 究 P2P 文件 共享 和 内 容 分 发 技术 的 文献 包括 [1, 25, 31, 
37，41，46] ， 数 据 复制 和 网 络 邻近 性 研究 参见 文献 [11，33] 。 文 献 [9，47，48，56] 深 入 讨论 
了 覆盖 网 络 广播 算法 ,文献 [8，18，29，36] 研 究 了 P2P 视频 流 系 统 ， 而 文献 [4，26，30，59] 
则 研究 了 BitTorrent 系统 。 

Ross 等 人 :给 出 了 PP 系统 4 个 重要 的 研究 方向 ，(1) 基于 DHT 的 系统 中 的 局 部 性 问题 ; 
(2) 是 否 使 用 基于 哈 希 的 DHT; (3) 在 自治 和 不 可 信 节 点 上 建立 可 信 系 统 ; (4) 构建 适用 于 高 
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动态 性 环境 的 P2P 系统 。 目 前 已 有 一 些 工作 部 分 地 解决 了 上 述 挑战 : 抗 扰动 负载 均衡 、 大 规 
模 数 据 分 发 2%] PP EO) 、 版 权 保护 。 最 后 ， 文 献 [55 ] 介绍 了 针对 社会 网 络 构建 
的 信誉 系统 。 
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习题 

8.1 在 8.3.1 节 我 们 已 经 研究 了 DHT 的 基本 概念 。 一 种 重要 的 基于 DHT 的 协议 是 Kademlialssl 。 该 协议 的 
特别 之 处 在 于 ， 它 已 经 成 功 应 用 在 eDonkey 和 eMule 文件 共享 系统 中 。 请 深入 研究 Kademlia 协议 并 与 
Chord 和 CAN 就 路 由 复杂 性 、 维 护 开销 和 可 扩展 性 三 个 方面 进行 比较 。 最 后 ， 下 载 eMule 的 源 代 码 
(www. emule-project. net) 研究 其 工作 机 理 。 在 可 能 的 情况 下 修改 eMule 代码 以 对 该 系统 进行 测量 ， 测 
量 方面 的 工作 可 参考 文献 [44] 。 

8.2 P2P VoD (WAAR) 系统 和 PP 流 媒体 直播 系统 是 不 同 的 ， 因 为 P2P VoD 中 用 户 共享 视频 的 同步 性 
较 差 ， 所 以 利用 互联 网 边缘 用 户 的 资源 来 分 发 数据 比较 困难 。 请 阅读 文献 [18] ， 列 出 P2P VoD 系统 设 
计 的 挑战 并 解释 PPlive 是 如 何 解 决 这 些 问题 的 。 

8.3 列 出 针对 结构 化 P2P 覆盖 网 络 的 三 种 网 络 邻近 性 优化 的 优 缺 点 。8. 3. 3 节 指出 ， 在 Chord 覆盖 网 络 中 ， 
节点 zx 可 以 从 标识 落 在 范围 [x +2), 2 2°] 中 的 节点 中 选择 一 个 物理 上 邻近 的 节点 作为 指针 表 的 第 
i 项 ， 而 这 种 改变 不 影响 路 由 复杂 度 ， 请 分 析 其 原因 。 

8.4 构建 的 网 络 邻 近 性 感知 的 覆盖 网 络 将 会 影响 泛 洪 和 随机 游 动 搜索 算法 的 性 能 ， 因 为 节点 被 聚集 为 一 个 
个 组 ， 组 之 间 的 连接 非常 少 。 在 这 种 情况 下 ， 随 机 游 动 的 查询 消息 可 能 会 在 一 个 组 中 转发 很 多 次 之 后 
才能 跳出 该 组 到 达 资 源 所 在 组 。 请 设计 一 种 适用 于 节点 聚集 的 覆盖 网 络 的 搜索 算法 。 

8.5 数据 分 发 也 可 以 实现 在 基于 DHT 的 覆盖 网 络 之 上 ， 代 表 方法 是 CAM-Chord'*! ， 它 在 Chord 覆盖 网 络 上 
构建 了 能 力 感知 的 Chord 覆盖 网 络 。 该 方法 不 会 产生 宛 余 消 息 ， 即 向 m 个 节点 分 发 数据 对 象 仅 需要 n 
个 消息 。 请 阅读 和 比较 CAM-Chord 、ACOMIe 和 CRP) 三 种 方法 ， 特 别 考虑 下 列 性 能 指标 ， 跳 数 复杂 
度 、 邻 近 性 感知 、 覆 盖 网 络 维护 开销 和 数据 副本 比例 。 

8.6 请 补充 表 8-9 中 的 空白 ， 以 比较 Chord, Pastry, CAN 和 Kademlia， 其 中 是 网 络 规模 (对 等 节点 数 
H), d 为 笛 卡 儿 坐 标 维 数 。 部 分 表 项 作为 例子 已 经 给 出 。 
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表 8-9 结构 化 P2P 网 络 比 较 





Kademlia 










路 由 状态 








带 有 弦 的 环 状 结构 











8.7 P2P 流量 本 地 化 也 可 以 通过 在 网 络 提 供 商 的 网 关上 部 署 缓存 来 实现 。 然 而 与 HTTP 访问 模式 不 同 ，P2P 
中 文件 的 流行 程度 不 再 服从 Zipf 规律 。 请 阅读 文献 [17 ] 并 解释 流行 度 的 分 布 是 如 何 影响 缓存 算法 的 ， 
进一步 讨论 实现 流量 本 地 化 的 各 种 方法 的 优 缺 点 。 

8.8 在 8.5.1 节 中 ， 我 们 研究 了 不 考虑 共享 内 容 语义 信息 的 基本 搜索 算法 。 文 献 [60 ] 的 研究 成 果 表 明 构 建 
语义 覆盖 网 络 可 以 极 大 提高 搜索 性 能 ， 请 阅读 本 篇 文章 及 其 相关 工作 ， 并 回答 为 什么 语义 覆盖 网 络 可 : 
以 提高 搜索 性 能 。 

8.9 YouTube 是 全 球 最 大 的 用 户 产 生 视 频 网 站 ， 大 量 用 户 每 天 观看 成 千 上 万 的 视频 。YouTube 可 以 使 用 P2P © 
技术 来 减轻 服务 器 负载 ， 但 是 和 传统 的 视频 不 同 ， 用 户 产生 视频 大 小 比较 小 。 阅 读 NetTube 论文 中 并 
讨论 如 何 使 用 P2P 技术 来 在 YouTube 中 实现 内 容 分 发 。 

8.10 分 析 Chord 覆盖 网 络 的 容错 性 和 后 继 节 点 列表 长 度 的 关系 。 请 问 当 节点 失效 概率 为 0.5 时 ， 是 不 是 每 

个 节点 维护 一 个 大 小 为 O(log n) (其 中 为 节点 数目 ) 的 后 继 节 点 列表 就 足以 保证 Chord 覆盖 网 络 的 
BY Sette? 

8.11 BitTorrent 被 广泛 使 用 在 文件 共享 中 ， 文 件 被 分 成 文件 分 片 ， 节 点 与 邻居 交互 分 片 可 用 信息 。 当 一 个 
节点 发 现 其 邻居 拥有 的 分 片 它 还 没有 下 载 ， 它 向 邻居 请 求 该 分 片 。 文 件 分 片 大 小 缺 省 为 256KB。 请 从 
http :// theory. stanford. edu/ ~ cao/biased-bt. html 处 获得 BitTorrent 的 模拟 代码 ， 并 评估 文件 大 小 对 文件 
分 发 性 能 的 影响 。 

8.12 Skype 是 基于 P2P 的 VoIP 系统 ， 已 经 被 广泛 使 用 ， 请 阅读 Skype 相关 文献 [3] ， 然 后 给 出 Skype HA 
盖 网 络 结构 、 带 宽 消耗 特征 、 访 问 能 力 受 限 对 VoIP 覆盖 质量 的 影响 。 

8. 13 ”在 基于 网 状 网 “ 拉 ” 的 数据 分 发 方法 中 ， 每 个 节点 向 其 邻居 广播 它 获 得 的 数据 分 块 ， 如 果 需 要 向 其 
邻居 请 求 相 应 数据 分 块 。 在 基于 树 的 “ 推 ”的 数据 分 发 方法 中 ， 数 据 分 块 沿 着 一 个 或 者 多 个 树 状 结 
构 分 发 给 所 有 节点 。 普 遍 认为 “ 拉 ” 的 方法 需要 在 控制 开销 和 延迟 之 间 折 中 ， 而 树 状 结构 “ 推 ” 的 
方法 则 需要 在 连续 性 和 延迟 之 间 折 中 只; 。 请 阅读 内 容 分 发 算法 的 综述 文献 [36] 并 比较 两 种 方法 加] ， 
可 以 考虑 在 树 状 结构 系统 中 利用 网 络 编码 结合 两 种 方法 。 

8.14 BitTorrent 系统 使 用 所 谓 的 “Tit-for-Tat” 激 励 机 制 来 实现 贡献 感知 的 内 容 分 发 。 有 些 研究 人 员 指 出 这 
种 机 制 对 保证 公平 性 是 足够 的 ， 而 另外 一 些 人 则 怀疑 该 机 制 并 认为 搭便 车 是 非常 容易 的 。 请 阅读 文献 
[20, 29，37] ， 然 后 回答 下 面 两 个 问题 : (1) 是 什么 使 得 搭便 车 行为 很 容易 实施 ? (2) 你 是 否认 为 
“Tit-for-Tat” 足够 解决 这 个 问题 ?为 什么 ? 

8.15 ”请 为 左边 的 PP 网 络 从 右边 选择 最 佳 搭配 。 





— eMule (a) 使 用 了 多 维 坐标 空间 的 结构 化 覆盖 网 络 

— BitTorrent (b) 实现 功名 和 分 散 存 储 服 务 的 无 结构 覆盖 网 络 
_ Gnutella Cc) PP 视频 电话 应 用 

~ Napster Cd) 使 用 高 基数 内 由 组 实现 邻近 路 由 的 覆盖 网 络 
— SETI@Home Ce) 使 用 多 个 文件 索引 跟踪 器 的 P2P 文件 共享 网 络 
_ KaZaA Cf) 最早 通过 集中 控制 提供 MP3 音乐 的 P2P 网 络 
— Chord Cg) 抵御 DDoS 或 者 网 络 攻击 的 安全 覆盖 网 络 服务 
— Pasty Ch) 使 用 泛 洪 搜索 文件 提供 商 的 无 结构 覆盖 网 络 
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—_ Freenet (i) 由 多 个 超级 节点 构建 的 分 散 P2P 网 络 

— CAN (G) 在 以 9.5MB 为 大 小 的 片段 级 进行 哈 希 的 P2P 文件 共享 网 络 
_ Skype (k) 基于 DHT 的 覆盖 网 络 ， 查 询 时 间 为 O(log n) 

— SOS (1) 分 布 式 处 理 外 星 信 号 的 P2P 网 络 





8. 16 ”考虑 一 个 标识 长 度 为 6 位 的 Chord 覆盖 网 络 ( 共 可 有 64 个 标识 ), 假设 已 经 有 6 个 节点 (0, 4, 7, 
12, 32, 50) 在 覆盖 网 络 上 ， 请 使 用 Chord 图 回答 下 列 问 题 : 
a. 存储 在 节点 0 上 的 数据 键 和 节点 键 值 是 什么 ? 
b. 给 出 节点 7 的 指针 表 ， 描 述 节点 7 是 如 何 使 用 指针 表 找 到 保存 数据 键 为 3 的 文件 的 节点 。 
c 描述 如 何在 该 结构 中 增加 一 个 标识 为 45 的 新 节点 ， 需 要 在 Chord 图 中 给 出 到 达 存 储 键 45 的 节点 的 
最 短路 径 。 
d 利用 节点 45 的 前 驱 的 指针 表 执行 5 步 查询 操作 来 构建 新 节点 45 的 指针 表 。 
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普 适 云 计 算 、 物 联网 与 社会 网 络 


本 章 以 移动 计算 支持 、 普 适 计 算 和 社会 网 络 为 主线 ， 讨 论 数据 密集 型 应 用 和 互联 网 云 的 未 来 趋 
势 。 首 先 综述 公有 云 、 私 有 云 、 科 学 云 和 网 格 方面 的 项 目 ， 包 括 IBM, SCI, Salesforce. com, NASA 
Al CERN 等 机 构建 立 的 云 平 台 ， 并 讨论 数据 密集 型 可 扩展 计算 的 需求 。 其 次 针对 高 性 能 计算 
(HPC) 网 格 和 高 通 量 计算 (HTC) 云 给 出 性 能 评价 指标 ， 并 就 云 混搭 系统 (cloud mashups) 、 移 动 
支持 以 及 在 现 有 网 格 和 云 平台 上 的 基准 测试 结果 进行 介绍 。 本 章 还 讨论 新 近 出 现 的 物 联网 和 信息 物 
理 系 统 (Cyber-Physical Systems ，CPS)。 最 后 分 析 了 大 规模 社会 网 络 ， 特 别 是 Facebook 和 Twitter, 
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本 章 展望 分 布 式 和 云 计算 系统 的 未 来 趋势 及 其 创新 应 用 。 在 最 近 几 年 ， 分 布 式 计 算 在 系统 
结构 、 可 扩展 性 以 及 应 用 领域 等 方面 迅速 改变 。 集 群 系统 出 现在 20 世纪 90 年 代 ， 那 时 在 超级 计 
算 机 前 500 名 的 列表 中 ， 有 很 多 是 以 集群 结构 搭建 的 大 规模 并 行 处 理 器 (MPP) 。 到 21 世纪 初 ， 
网 格 作 为 一 种 计算 机 集群 系统 进一步 集群 化 的 技术 ， 变 得 普及 和 流行 起 来 ， 然 而 网 格 由 于 在 应 
用 中 缺乏 灵活 性 而 没有 得 到 广泛 应 用 。 

从 2005 年 起 ，P2P 网 络 广泛 应 用 于 文件 共享 网 络 和 在 线 社会 网 络 ， 电 子 书籍 、 视 频 流 、 电 
影 下 载 和 社会 网 络 成 为 当今 互联 网 流量 的 主宰 者 。 构 建 于 数据 中 心 之 上 的 云 计 算出 现 于 2007 F, 
尽管 云 计 算 的 底层 所 需 技 术 目 前 均 已 具备 ， 但 云 计算 仍然 处 在 其 发 展 的 初级 阶段 。 云 计算 反映 
了 最 新 的 技术 发 展 趋势 ， 即 通过 虚拟 化 把 计算 服务 向 外 扩展 到 自动 化 的 数据 中 心 ， 以 实现 弹性 
和 灵活 性 。 

本 节 以 移动 计算 支持 、 普 适 计算 和 社会 网 络 为 主线 ， 讨 论 数据 密集 型 应 用 和 互联 网 云 的 未 
来 趋势 。 考 虑 到 公有 云 和 私有 云 服 务 已 被 运用 在 大 量 高 性 能 应 用 和 善 适应 用 中 ， 本 节 将 首先 分 
析 它 们 的 发 展 趋 势 ， 接 着 研究 灵活 和 可 扩展 的 云 混搭 系统 基本 理念 ， 最 后 通过 举例 说 明 云 计算 
在 商业 和 科学 应 用 中 的 未 来 趋势 。 

在 9.2 节 ， 我 们 将 评估 云 计算 和 分 布 式 系 统 的 性 能 。 而 在 9.3 节 和 9.4 节 ， 我 们 将 集中 研究 
新 兴 的 物 联 网 。 物 联网 扩展 了 现 有 的 互联 网 ， 就 像 I Pv4 (32 位 地 址 空间 ) 扩展 到 IPv6 (128 位 
地 址 空间 ) 一 样 。 物 联网 可 能 会 引领 IT 的 新 一 轮 发 展 ， 而 其 应 用 可 能 会 影响 人 们 生活 的 方 方 面 
面 以 及 全 球 的 经 济 。 本 章 最 后 分 析 社 会 网 络 ， 并 分 析 它 们 对 面向 海量 用 户 的 数字 社会 的 影响 。 
9.1.1 云 计算 在 HPC/HTC 和 普 适 计算 中 的 应 用 

普 适 云 计 算 指 在 任何 地 点 、 在 任何 时 间 、 为 了 任意 目的 使 用 互联 网 资源 。 如 今 人 们 可 以 通过 
有 线 或 者 移动 无 线 网 络 访问 互联 网 。 云 科学 受到 按 需 提供 的 软件 和 服务 思路 的 影响 ， 其 研究 进 
展 可 以 应 用 在 高 能 物理 、 天 文 、 大 气 科学 建 模 和 生物 医学 等 领域 。 微 软 研究 院 的 Dan Reed 分 析 
了 大 数据 、 多 核 普 适 云 的 变革 ， 以 及 它们 对 信息 时 代 科 学 研究 的 影响 ， 他 的 部 分 观点 如 下 。 

9.1.1.1 赫 伯 特 .西蒙 关于 信息 消耗 的 观点 

“信息 消耗 的 成 本 是 显而易见 的 ; 接收 者 的 注意 力 。 因 此 ， 信 息 的 富有 造就 了 注意 力 的 荐 
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乏 ， 随 之 产生 了 高 效 分 配 注意 力 的 需求 ， 即 在 可 能 消耗 注意 力 的 信息 资源 之 间 分 配 注意 力 。” 这 个 
观点 清晰 地 勾勒 出 信息 时 代 的 供求 模型 。 借 助 无 处 不 在 的 传感器 、 云 和 移动 设备 ， 人 们 能 够 更 加 快 
速 和 高 效 地 获取 信息 。 在 现在 和 未 来 的 数据 爆炸 信息 时 代 ， 我 们 能 够 以 非常 小 的 成 本 消耗 信息 。 

9.1.1.2 范 内 瓦 .布什 关 于 预测 扩展 存储 器 (Memex) 的 观点 

另 一 个 有 趣 的 观点 是 范 内 瓦 ， 布什 关 于 “扩展 存储 器 ”(Memex) 的 概念 。 早 在 1945 年 ， 他 
对 梦想 设备 的 预测 如 下 :“ 一 种 每 个 人 都 使 用 的 未 来 设备 ， 它 是 一 种 机 械 化 的 个 人 私有 文档 和 知 
识 库 ， 其 名 字 是 “memex' 。 在 memex 设备 中 ， 每 个 人 存储 他 的 所 有 书籍 、 记 录 和 通信 。 该 设备 是 
机 械 化 的 ， 支 持 非常 快 的 速度 和 良好 的 灵活 性 来 访问 ， 是 每 个 人 记忆 力 的 扩大 补充 。” 多 么 巧合 ! 
今天 ， 这 种 “memex” 设 备 包括 iPad 、 智 能 手机 、 云 、 物 联网 、 虚 拟 现实 和 信息 物理 系统 等 。 

9.1.1.3 云 服务 趋势 

表 9-1 总 结 了 8 个 开 知 名 公司 和 一 些 创业 的 云 计算 公司 所 提供 的 云 服 务 。 本 书 的 第 4 章 和 第 
6 章 已 经 研究 了 由 亚 马 了 还、 谷歌、 微软 、GoGrid 和 Rackspace 公司 提供 的 云 服 务 ， 这 里 仅 介 绍 由 
IBM, SGI 和 Salesforce. com 提供 的 三 种 云 服 务 。 其 他 云 服 务 留 给 读者 深入 研读 。 


表 9-1 提供 云 服务 或 者 产品 的 部 分 IT 公司 
Qa, 成立 年 份 提供 的 主要 云 服 务 主要 用 户 群 
亚马逊 Web 服务 (AWS); 6 个 “基础 设施 即 服 | 1 万 多 个 企业 和 个 人 用 户 , 包括 《纽约 时 








ame 1994 3” (laS) 系统 ,包括 提供 计算 能 力 的 EC2、 按 | 代 周 刊 》、《 华 盛 顿 邮 报 》 和 美国 礼 来 公司 
, 需 提供 存储 能 力 的 S3 (Eli Lilly) 
Enomaly 弹性 计算 平台 ， 借 助 商业 云 整 合 企业 数据 中 心 ,| 博 奥 杰 (Business Objects) 法 国电 信 、 





多 伦 多 ,2004 “| 借助 虚拟 机 (VM) 迁移 来 管理 内 部 和 外 部 资源 ”| NBC、 德 意志 银行 、 百 思 买 集团 (Best Buy) 
a ` ah 
谷歌 提供 平台 即 服务 (PaaS) 能力 以 及 办 公用 工具 ,| ”小 企业 和 大 学 ,包括 亚利桑那 州立 大 学 和 
包括 Gmail, ATA. Postini 网 站 构建 工具 和 安 
山 景 城 ， 加 州 ，1998 全 防护 服务 西北 大 学 等 


CoCrid 提供 基于 Web 的 存储 ， 借 助 提前 安装 的 Apache、| ”主要 是 创业 公司 、Web 2.0 和 软件 即 服务 
旧金山 ，2008 PHP 以 及 微软 的 SQL 等 软件 ， 在 云 中 部 署 基于 |(SaaS) 公司 ， 再 加 上 一 些 大 的 企业 ， 如 
Windows 和 Linux 的 虚拟 服务 器 SAP 和 Novell 等 


微软 的 Azure 提供 一 个 称 为 “Windows 即 服务 ” 





oa .97 | 的 平台 ， 由 用 于 构建 和 增强 Web 托管 应 用 的 操作 系 py 和 Micro Focus 使 用 Azure 
， 统 和 开发 者 服务 组 成 

NetSuite . f 

Tma py, | _ 商 业 软 件 套装， 包括 电子 商务 、 消 费 者 关系 管理 | 商业 客户 ， 如 Puck Cofee 和 Wrigleyville 


(CRM) 、 会 计 和 企业 资源 计划 (ERP) 工具 Sports 等 


1998 
Rackspace Racksapce 的 Mosso 云 提供 构建 网 站 的 平台 、 云 存 
圣安东尼奥 ， 得 克 | 储 服务 、 类 似 于 EC2 的 云 服务 器 〈 可 访问 虚拟 服务 | Web 开发 人 员 和 软件 即 服务 提供 商 ， 如 


Zapproved 使 用 Mosso 实现 在 线 生 产 工具 














萨 斯 州 ，1998 器 实例 ) 
Salefore. com | gg ce ee BLA EVA sult to | 来自 金融 服务 、 通 信 、 数 字 媒 体 、 能 源 和 
旧金山 ，1999 人 , ”| 医疗 保健 等 领域 的 50 万 客户 





com 设施 上 构建 Web 应 用 


9.1.1.4 IBM 云 项 目 

IBM 正 逐 渐 从 一 个 软 /硬件 和 系统 提供 公司 转变 为 一 个 计算 服务 提供 公司 。IBM 的 云 平 台 主 
要 使 用 由 IBM WebSphere 支持 的 IBM 服务 器 集群 以 及 过 去 若干 年 积累 的 软件 资源 来 构建 。IBM 的 
z 系列 和 p 系列 服务 器 正在 更 新 ， 更 新 后 的 服务 器 具有 虚拟 化 能 力 。2007 Æ, IBM 启动 了 一 系列 
云 相关 的 研发 项 目 ， 这 些 项 目 大 都 扩展 自 IBM 前 期 的 、 基 于 SOA 的 按 需 计算 和 自治 计算 项 目 。 

IBM 的 Ensembles 提供 虚拟 化 云 系 统 ， 实 现 基础 设施 即 服务 。 该 系统 能 够 把 大 的 资源 池 整 合 
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起 来 以 简化 管理 的 复杂 度 ， 其 目的 是 通过 动态 服务 器 、 存 储 和 网 络 集成 ， 提 供应 用 灵活 性 和 高 效 
资源 部 署 。IBM 还 提供 一 套 称 为 Tivoli 服务 自动 管理 器 (Tivoli Service Automation Manager, 
TSAM) 的 软件 ， 以 实现 快速 设计 、 部 署 和 管理 服务 过 程 。 管 理 私 有 云 的 另 一 个 平台 是 WCA 
( WebSphere CloudBurst)。 此 外 ，IBM 的 LotusLive 提供 软件 即 服务 的 开发 ， 包 括 在 线 会 议 服务 、 
协同 办 公 管 理 和 电子 邮件 服务 。 

9.1.1.5 IBM RC2 云 

8 个 IBM 研究 中 心 的 计算 机 和 IT 基础 设施 强 连通 组 成 称 为 研究 计算 云 (Research Compute 
Cloud, RC2) 的 私有 云 。RC2 是 基于 Web 的 ，3 000 多 分 布 在 全 球 的 IBM 研究 人 员 通 过 RC2 来 
共享 计算 资源 。 它 也 是 IBM 内 部 用 于 云 技术 研发 的 测试 床 ， 可 提供 按 需 建立 自治 计算 环境 的 解 
决 方案 。 在 本 书 撰写 时 ，RC2 云 作 为 私有 云 服 务 的 大 规模 测试 床 ， 为 分 布 在 世界 各 地 的 3 000 多 
名 IBM 研发 人 员 服务 。 

该 系统 支持 机 器 虚拟 化 、 服 务 生命 周期 管理 和 性 能 监测 ， 其 基本 思想 是 把 作业 安排 在 最 合 
适 的 站 点 ， 从 而 节省 计算 开销 ， 并 最 终 实现 优化 执行 。 该 项 目 还 对 绿色 节能 和 动态 资源 优化 等 进 
行 了 研究 。 在 一 个 典型 的 RC2 服务 设置 中 ， 用 户 使 用 Web 服务 向 RC2 提交 资源 请 求 ， 如 虚拟 机 
和 存储 资源 等 。 用 户 然后 列 出 带 有 特殊 服务 水 平 协议 (Service-Level Agreements, SLA) 的 指令 ， 
这 些 服 务 水 平 协议 是 关于 资源 数量 和 能 力 等 级 的 。RC2 的 管理 模块 确保 命令 所 需 的 资源 和 服务 
是 能 够 提供 的 ， 而 RC2 监测 模块 监测 请 求 资 源 模 式 ， 并 在 服务 完成 后 完成 计 费 工作 。 

例 9.1 IBM 蓝 云 (Blue Cloud) 系统 

2007 年 11 A, IBM 对 外 宣布 基于 开放 标准 和 开源 软件 的 蓝 云 项 目 。 该 项 目 由 分 布 在 全 球 的 
200 多 位 IBM 研究 人 员 参 与 。 蓝 云 在 一 个 定制 的 IJBM 硬件 服务 器 平台 上 ， 结 合 了 一 些 已 有 的 软件 
和 虚拟 化 包 以 及 开源 和 私有 软件 ， 从 而 构建 云 计算 环境 。 蓝 云 系统 是 用 类 似 于 x86 处 理 器 的 x 服 
务 器 构建 的 ( 见 图 9-1)。 这 些 服务 器 上 运行 Linux 操作 系统 ， 并 带 有 基于 Xen 的 虚拟 化 软件 。 


ete eo nner 





A me 


WebSphere 


应 用 服务 器 












监测 模块 供应 管理 器 


图 9-1 蓝 云 系统 体系 结构 ， 使 用 IBM 硬件 和 软件 ， 并 带 有 开源 Linux 和 Xen 
注 : 由 IBM 蓝 云 项 目 提供 。 
蓝 云 使 用 一 系列 定制 软件 : Tivoli 监测 模块 监测 虚拟 集群 操作 〈 详 见 www-01. ibm. com/software/ 
tivoli/products/monitor) ; DB2 管理 结构 化 数据 ; 而 Tivoli 供应 管理 器 向 物理 节点 提供 虚拟 服务 器 
( 详 见 www-03. ibm. com/systems/power/ software/virtualization/index. html); WebSphere 应 用 服务 器 
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用 来 建立 应 用 入 口 。 蓝 云 在 后 台 使 用 了 开源 软件 搭建 处 理 大 规模 数据 的 云 应 用 ，Xen 作为 云 应 用 
虚拟 机 运行 实例 的 容器 而 使 用 ， 而 Hadoop 基于 MapReduce 范式 来 处 理 海量 数据 。 = 

9.1.1.6 SGI 的 云 系 统 

2010 年 2 A, SGI 对 外 宣布 Cyclone 一 一 用 于 高 性 能 计算 (HPC) 的 大 规模 按 需 云 服 务 。 
Cyclone 同时 提供 SaaS 和 Iaas 两 种 模式 。Saas 模式 向 用 户 提供 涵盖 很 多 领域 的 、 预 先 包装 好 的 科 
技 应 用 。 例 如 ， 系 统 可 被 飞机 和 汽车 制造 商用 来 进行 流体 动力 学 (CFD) 和 有 限 元 分 析 。 而 在 
TaaS 模式 下 ， 用 户 可 以 访问 SGI 最 快 的 Altix 服务 器 和 ICE 集群 。 这 些 服 务 器 和 集群 是 互联 的 存 
储 系统 ， 而 且 由 SGI 的 专家 们 根据 特定 用 户 应 用 进行 管理 和 优化 。 

如 今 大 量 的 公司 需要 处 理 越 来 越 难 的 商业 问题 ， 如 管理 和 处 理 持续 增长 的 数据 、 及 时 把 结 
果 传 给 用 户 等 。 大 多 数 公司 在 处 理 这 个 问题 时 采取 的 方式 是 扩大 它们 的 IT 基础 设施 ， 随 之 而 来 
的 是 不 可 预见 的 管理 和 设备 开销 ， 以 及 由 数据 瓶颈 导致 的 低 于 预期 的 吞吐 率 。SGI 的 Altix ICE Æ 
成 刀片 集群 正 是 为 数据 密集 型 问题 设计 的 ， 避 免 了 上 述 问题 。 这 种 创新 平台 在 不 损失 易 用 性 、 易 
管理 性 和 性 价 比 的 情况 下 ， 提 高 了 效率 ， 而 且 是 可 扩展 的 。 

例 9.2 SGI Cyclone 云 实 现 高 性 能 计算 

图 9-2 给 出 了 SGI Cyclone HPC 云 的 体系 结构 。SGI 服务 器 可 以 根据 用 户 应 用 的 要 求 纵 向 扩展 
(scale up) 和 横向 扩展 (scale out) ， 甚 至 以 混合 模式 扩展 。Cyclone 云 可 以 支持 大 量 人 们 熟知 的 
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持久 性 存储 定 
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图 9-2 SGI Cyclone HPC 云 ， 支 持 SaaS 和 IaaS 应 用 
注 : wW SGI CEO M. Barrenechea 提供 ，www. sgi. com/cyclone, 2010 年 2 月 。 
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科学 和 和 工程 应 用 ,包括 OpenFOAM, NUMECA, Acusolve, LS-Dyna, Gaussian, Gamess, NAMD, 
FASTA 和 ClustaIW。 这 些 云 应 用 可 以 为 很 多 工业 和 政府 部 门 提 供 便 利 ， 包 括 绿色 能 源 、 制 造 业 、 
数字 媒体 、 娱 乐 、 财 政 管理 、 研 究 和 高 等 教育 等 。 用 户 在 无 需 进行 基建 投资 的 情况 下 ， 扩 展 他 们 
的 计算 和 存储 能 力 ， 省 去 了 长 时 间 的 采购 和 安装 周期 。 用 户 在 需要 时 请 求 基 础 设施 ， 而 不 必 担 心 
基础 设施 的 管理 。Cyclone 云 平 台 由 SGI 的 防火 墙 和 虚拟 专用 网 (VPN) 访问 通道 保护 。 

Cyclone 是 一 种 专 为 科技 应 用 提供 按 需 云 计算 服务 的 系统 ， 它 支持 许多 前 沿 应 用 和 5 个 科技 
领域 ， 包 括 计 算 流体 动力 学 、 有 限 元 分 析 、 计 算 化 学 和 材料 学 、 计 算 生 物 学 和 本 体 论 。 该 系统 以 
两 种 模式 提供 服务 ， 即 SaaS 和 JaaS。 在 SaaS 模式 下 ,通过 访问 先进 的 开源 应 用 和 顶尖 独立 软件 
供应 商 提供 的 最 佳 商业 软件 平台 ， 用 户 可 以 大 幅度 节省 所 需 的 计算 时 间 。 而 laas 模式 允许 用 户 
安装 和 运行 他 们 自己 的 应 用 程序 。 

SGI Altix 是 纵向 扩展 的 ，Altix ICE 是 横向 扩展 的 。Altix XE 混合 集群 用 来 管理 基于 Intel 至 强 
或 安 腾 处 理 器 的 云 服 务 器 。Altix 是 一 系列 由 SGI 生产 的 基于 Intl 处 理 器 的 服务 器 和 超级 计算 机 ， 
有 很 多 个 版 本 ， 最 新 的 是 SCL Alix 4700。 该 服务 器 在 以 数据 为 中 心 的 结构 中 提供 刀片 式 配 置 ，[ 
可 实现 太 字 节 的 数据 吞吐 率 。 服 务 器 支持 “ 即 播 即 解决 ”(plug and solve) 刀片 式 配 置 能 力 。 和 H 
以 前 的 版 本 一 样 ， 该 款 服务 器 平台 基于 工业 标准 CPU、 存 储 和 1/O， 专 为 科技 用 户 设计 。 m [551 

9.1.1.7 Salesforce. com 的 Force. com & 

Salesforce. com 于 1999 ÆR, X SaaS 提供 在 线 方案 ， 主 要 针对 消费 者 关系 管理 (Customer 
Relationship Management, CRM) 应 用 。 它 最 早 使 用 第 三 方 云 平 台 来 提升 其 软件 服务 ， 并 逐渐 搭 
建 Force. com 作为 PaaS 平台 。 截 至 2010 年 ，Salesforce. com 的 用 户 超过 了 210 万 。 例 9.3 简要 介 
绍 了 Force. com 平台 云 。 

例 9.3 Salesforce. com 的 Force. com 云 平 台 

Force. com 平台 支持 某 些 SaaS 和 IaaS 应 用 ， 人 允许 外 部 开发 者 创建 集成 于 Salesforce. com 的 新 
应 用 。 该 平台 的 目标 用 户 是 需要 商业 计算 应 用 的 企业 用 户 。 除 了 CRM 在 云 服 务 中 的 易 用 性 外 ， 
Force. com 提供 一 种 私有 的 类 似 于 Java 的 编程 语言 Apex， 以 及 用 于 简化 商业 开发 周期 的 
Visualforce。 多 个 用 户 可 用 AppExchange 方便 地 交互 和 协同 工作 。 应 用 服务 主要 集中 在 CRM 数据 
库 、 应 用 开发 和 定制 领域 。 

在 安全 领域 ，Salesforce. com 不 仅 提 供 保护 数据 完整 性 的 机 制 ， 而 且 提 供 访问 控制 机 制 来 确 
保 行政 安全 和 记录 安全 。 公 司 在 2010 年 6 月 引入 了 Chatter 系统 ， 它 是 “企业 的 Facebook”。 其 
中 的 打包 服务 帮助 用 户 发 布 他 们 的 创新 应 用 ， 用 户 可 在 Force. com 平台 上 定制 他 们 的 CRM 应 用 。 
系统 有 “联系 人 ”、“ 报 告 ” 和 “账户 ”等 标签 ， 用 户 也 可 以 根据 金融 和 人 力 资 源 应 用 方面 的 特 
殊 需 要 增加 定制 的 或 者 新 的 标签 。 此 外 ，Force. com 平台 提供 SOAP Web 服务 API， 还 为 黑莓 
( BlackBerry) 、iPhone 和 Windows 移动 设备 用 户 提供 移动 支持 。Salesforce. com 的 SaaS 和 PaaS 服 
务 已 经 支持 10 余 种 语言 。 = 
9.1.2 NASA 41 CERN 的 大 规模 私有 云 

在 2010 年 ， 美 国 和 欧盟 分 别 建立 大 规模 私有 云 。 本 小 节 讨 论 这 两 种 云 平台 ， 并 展示 云 计算 平 
台 的 扩展 增长 。 美 国 建立 的 云 平台 称 为 Nebula， 是 由 NASA 设计 的 ， 旨 在 为 NASA 的 科学 家 在 远程 
系统 上 提供 气候 模型 运行 能 力 。 这 可 以 避免 大 量 的 NASA 用 户 就 近 请 求 超级 计算 机 而 带 来 的 问题 。 
此 外 ，NASA 可 以 在 该 数据 中 心 云 平 台 上 建立 复杂 的 天 气 模型 ， 这 无 疑 是 一 种 高 效 的 手段 。 

欧盟 的 云 平台 在 日 内 瓦 由 CERN 建立 。 它 用 于 向 全 球 数 以 千 计 的 科学 家 分 发 数据 、 应 用 和 计 
算 资源 。CERN 处 理 大 规模 数据 集 并 期 望 获得 高 吞吐 率 。IT 业界 、 大 企业 和 其 他 政府 组 织 也 在 建 
立 私 有 云 平台 。 在 其 初始 阶段 ， 这 些 云 平 台 仅 对 受 限 用 户 群 提供 服务 。 一 旦 这 些 云 平台 变 得 成 熟 
和 安全 ， 并 具备 它们 声称 的 优势 后 ， 将 会 转 为 公有 云 平 台 。 552 
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9.1.2.1 NASA 的 Nebula 云 

Nebula 是 NASA 的 艾 姆 斯 研究 中 心 正在 研发 的 云 计算 平台 ( 见 图 9-3)， 它 把 一 系列 开源 组 
件 集成 到 一 个 无 颖 自 服务 平台 。 该 平台 使 用 虚拟 化 和 可 扩展 方法 提供 高 性 能 计算 、 存 储 和 网 络 
互 连 ， 从 而 实现 空间 和 能 源 上 的 高 效 。Nebula 现在 应 用 于 教育 和 公众 平台 ， 以 实现 合作 、 公 共 输 
入 和 任务 支持 。Nebula 提供 高 速 数据 连接 、 工 具 集 和 开放 数据 API， 增 强 了 NASA 与 外 面 的 科研 
人 员 的 协同 能 力 。Nebula 遵照 透明 原则 构建 ， 是 一 个 开源 项 目 。 


代理 ( Varnish/Apache ) 和 eAuth 












虚拟 化 服务 器 





图 9-3 NASA 正在 研发 的 Nebula 云 平 台 (http://nebula. nasa. gov) 


Nebula 平台 建成 后 将 为 大 量 需求 的 快速 解决 提供 计算 方案 。Nebula 平台 的 每 个 组 件 将 单独 
可 用 ， 提 供 SaaS, PaaS 和 IaaS 服务 。NASA 将 用 Nebula 来 支持 任务 执行 ， 以 及 教育 和 公共 平台 
的 构建 ， 还 将 鼓励 合作 和 公共 输入 。Nebula 将 向 NASA 提供 一 种 简单 、 高 效 和 安全 的 方法 ， 以 方 
便 与 公众 交互 和 共享 数据 ， 这 符合 奥巴马 政府 建立 开放 、 透 明 政府 的 观点 。 

9. 1.2.2 Nebula 研发 现状 

Nebula 已 经 向 NASA 内 部 项 目 组 、 相 关 研 究 和 学 术 合 作者 开放 ， 但 并 不 向 私有 企业 和 公众 开 
放 ， 它 还 是 美国 管理 与 预算 办 公 室 进行 联盟 云 计 算 技 术 测 试 的 试验 床 。Nebula 使 用 集 装 器 式 的 
数据 中 心 ， 在 NASA 的 艾 姆 斯 研究 中 心 放 置 服务 器 。 集 装 器 式 中 心 是 最 “绿色 的 ”， 因 为 它们 更 
密集 ， 冷 却 所 需 的 电力 也 少 。 云 计算 可 以 达到 传统 网 络 或 者 服务 器 中 心 效 率 的 3 ~5 倍 。Nebula 
实现 节能 效率 的 另 一 个 方法 是 关 掉 网 络 中 的 一 些 服务 器 ， 估 算 结果 显示 Nebula 比 传统 数据 中 心 
的 能 源 效 率 高 出 50% 。 

9.1.2.3 CERN 超级 云 

CERN 在 解决 复杂 IT 问题 上 一 直 都 非常 有 影响 力 。 事 实 上 ， 万 维 网 很 大 程度 上 归功 于 CERN 
在 这 方面 早期 的 工作 。 现 在 ，CERN 的 注意 力 转向 了 云 计算 。CERN 科学 家 计划 同时 粉碎 两 个 粒 
子 束 ， 试 图 重 现 “ 大 爆炸 ”事件 ， 从 而 揭示 许多 基本 物理 现象 的 谜 题 。CERN 的 科学 家 认识 到 在 
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他 们 自己 的 大 规模 数据 中 心 上 使 用 云 计算 进行 模拟 实验 是 成 本 效益 最 高 的 。 

世界 上 成 千 上 万 的 科学 家 都 有 超大 数据 集 需 要 处 理 。CERN 相信 云 项 目 能 够 为 其 分 散在 85 
个 国家 的 1 万 研究 人 员 提 供 持续 增长 的 计算 性 能 和 良好 的 基础 设施 服务 。CERN 需要 处 理 海 量 科 
学 数据 ， 并 以 接近 实时 的 速度 分 发 给 研究 人 员 。CERN 的 云 基础 设施 需要 每 年 处 理 和 分 析 15PB 
数据 ， 这 些 数据 由 6 万 个 CPU 核 处 理 。 云 基础 设施 还 允许 科学 家 自己 管理 其 负载 ， 而 不 是 使 用 
CERN 实验 室 的 集中 式 IT 管理 部 门 来 统一 管理 。 

CERN 使 用 了 Platform 公司 的 LSF (Load Sharing Facility) 网 格 和 负载 管理 方案 ， 以 实现 对 其 
海量 科研 数据 分 析 的 可 扩展 性 。 实 验 室 和 Platform 公司 合作 来 探究 如 何在 虚拟 化 云 环 境 中 更 加 高 
效 地 利用 资源 。LSF 和 自 适 应 集群 为 CERN 的 科学 家 提供 了 一 个 开放 、 低 成 本 和 通用 的 平台 ， 可 
以 同时 管理 云 中 的 虚拟 服务 器 和 物理 服务 器 。 此 外 ， 科 学 家 可 以 管理 他 们 自己 的 应 用 环境 并 动 
态 控 制 项 目 ， 以 期 达到 最 大 灵活 性 和 高 效 的 负载 处 理 。 

9. 1.2.4 CERN 的 虚拟 机 项 目 

大 规模 离子 对 撞 器 实验 (ALICE) 的 科学 家 们 在 CERN 进行 了 大 量 离子 模拟 ， 他 们 在 内 部 分 
布 式 资源 集 上 开发 和 调试 计算 作业 。 这 些 资源 由 称 为 AliEn 的 调度 器 管理 ， 把 云 动 态 提 供 的 资源 
整合 到 已 有 的 基础 设施 内 ， 如 ALICE 计算 机 池 。 其 目的 是 确保 各 种 AEn 服务 拥有 同样 的 部 署 信 
A. CERN 的 虚拟 机 项 目 旨 在 开发 一 种 提供 虚拟 机 的 方法 ， 使 得 虚拟 机 能 够 作为 支持 所 有 大 规模 
实验 环境 的 基础 。 

CERN 的 虚拟 机 技术 最 早 旨 在 为 科学 家 提供 可 携带 的 开发 环境 ， 从 而 在 他 们 的 笔记 本 和 台式 
机 上 可 运行 这 种 环境 。 目 前 ， 该 项 目 支持 各 种 虚拟 镜像 格式 ， 包 括 亚马逊 EC2 和 科学 云 使 用 的 
Xen 镜像 。 这 里 的 挑战 是 找到 一 种 部 署 这 些 镜像 的 方法 ， 使 得 镜像 可 以 动态 、 安 全 地 在 AliEn 调 
度 器 上 注册 ， 即 加 入 ALICE 资源 池 。 

9.1.2.5 CERN 的 云 平台 构建 路 线 图 

Nimbus 是 一 种 允许 用 户 为 远程 资源 上 部 署 的 虚拟 机 安全 指定 上 下 文 信息 的 云 操作 系统 。 对 
云 提供 商 来 说 ，Nimbus 仅 需 最 小 的 兼容 性 要 求 ， 而 且 能 够 在 多 个 提供 商 之 间 协 调 信息 交互 。 商 
业 云 提供 商 〈 如 EC2) 允许 用 户 部 署 由 不 相连 虚拟 机 组 成 的 组 ， 但 科学 家 通常 需要 随时 可 用 的 
集群 ， 这 些 集群 共享 相同 的 配置 和 安全 的 上 下 文 。Nimbus 上 下 文 模块 (Context Broker) 弥补 了 
二 者 之 间 的 差距 。 

Nimbus 的 上 下 文 模块 和 CERN 的 虚拟 机 技术 是 可 以 融合 在 一 起 的 。 新 的 系统 在 位 乎 世 加 本 
大 学 的 Nimbus 云 上 动态 部 署 虚拟 机 。 该 虚拟 机 加 入 ALICE 计算 机 池 后 可 被 作业 使 用 。 此 外 ， 还 
增加 了 一 个 队列 传 感 单元 ， 按 需 部 署 和 终止 虚拟 机 。 这 样 研 究 人 员 就 能 够 按照 队列 中 作业 的 情 
况 ， 以 在 资源 成 本 和 需求 之 间 折 中 的 方式 进行 实验 。 

2009 年 ，CERN 启动 了 Iaas 配置 ， 重 要 组 成 部 分 是 批量 计算 平台 。 该 平台 利用 laas 来 提供 
大 量 虚拟 批 处 理 节点 。 虚 拟 机 提供 系统 和 批量 应 用 程序 都 经 过 了 大 规模 测试 ，CERN 的 云 平台 
支持 1.5 万 ， 甚 至 更 多 的 并 行 虚拟 批 处 理 节点 。 

9.1.3 灵活 和 可 扩展 的 云 混搭 系统 

在 Web 应 用 开发 中 ， 混 搭 系统 (Cloud Mashup) 是 指 一 个 网 页 或 者 应 用 结合 了 从 两 个 以 上 
的 源 提供 的 数据 、 表 达 或 者 功能 来 构建 新 的 服务 。 混 搭 系统 的 主要 特征 是 虚拟 化 和 聚集 的 混合 。 
在 云 计算 中 ， 云 从 虚拟 机 资源 池 中 动态 分 配 资源 来 提供 计算 服务 。 表 9-1 列 出 了 云 提 供 的 多 种 服 
务 。 正 如 亚马逊 的 EC2 和 S3 ARS (AWS) 所 展示 的 ， 资 源 池 可 用 于 并 行 分 布 式 计算 。 而 另 一 方 
面 ，GAE 则 主要 是 基于 Web 的 文件 存储 、 电 子 邮件 、 消 息 传递 等 服务 。 

尽管 AWS 和 CAE 在 功能 上 有 诸多 不 同 ， 但 是 二 者 可 以 相互 补充 。 这 就 催生 了 这 样 一 个 想 
法 ， 即 混合 不 同 的 云 来 动态 建立 互联 云 (intercloud) 或 者 云 平台 的 云 (eloud of clouds), AWK 
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展示 如 何 混合 CAE 和 AWS 云 来 实现 应 用 灵活 性 和 性 能 扩展 性 所 需 的 特征 。 事 实 上 ， 对 于 那些 不 
愿意 建立 自己 的 企业 级 数据 中 心 或 者 私有 云 的 创业 公司 来 说 ， 云 混搭 系统 为 它们 提供 了 一 种 更 
加 有 效 和 划算 的 解决 方案 。 云 混搭 系统 需要 兼顾 各 个 云 平台 的 优势 和 使 用 习惯 ,比如 把 AWS 和 
GAE 混搭 时 ， 需 要 既 保 持 AWS 的 MapReduce， 又 可 以 通过 GAE 易于 操作 的 Web 接口 来 实现 可 控 ， 


[555] 和 可 管理 。 


9.1.3.1 云 混搭 系统 的 基本 思想 

创业 公司 都 希望 在 最 初 几 年 把 它们 的 运营 成 本 控制 到 最 低 ， 这 可 以 使 得 企业 尽快 收回 投资 
和 实现 盈利 。 风 险 投 资 家 更 倾向 于 投资 那些 预期 可 以 尽快 收 加 投资 的 公司 ， 因此， 保持 较 小 的 前 
期 成 本 对 于 创业 公司 来 说 是 至 关 重 要 的 。 对 于 一 个 社会 网 络 的 创业 公司 来 说 ， 它 需要 大 量 的 数 
据 存储 空间 和 服务 器 ， 以 及 辅助 的 冷却 设施 和 用 于 放置 设备 的 厂房 等 基础 设施 。 这 些 无 疑 将 需 
要 中 等 规模 或 者 大 笔 的 启动 投资 。 

基于 “ 按 使 用 情况 来 付费 ” (pay-per-use) 模型 ， 创 业 公司 可 以 借助 类 似 于 AWS 和 GAE 的 
公有 云 平台 实现 快速 启动 。 这 不 仅 减 少 了 由 于 上 市 时 间 长 造成 的 损失 ， 而 且 可 以 加 快 新 想法 在 
商业 领域 的 发 布 。 由 于 越 来 越 多 的 企业 可 以 相互 之 间 良 好 的 互补 ， 因 此 当下 商业 混搭 系统 非常 
流行 。 混 搭 系统 一 般 是 借助 JavaScript 或 者 PHP 这 类 交互 式 脚本 语言 实现 的 数据 流 系统 。 例 如 ， 
截至 2010 年 9 A, ProgrammableWeb 网 站 收录 了 2000 多 个 API 和 5000 多 个 混搭 系统 ™, Hb 
混搭 系统 的 例子 有 雅虎 的 Pipes (http://pipes. yahoo. com/pipes/)、 微 软 的 Popfly (http:// 
en. wikipedia. org/wiki/Microsoft_Popfly) 以 及 IBM 的 BPEL Web 2. 0''*! 等 。 

$19.4 在 AWS 和 GAE 平台 上 设计 云 混搭 系统 

图 9-4 给 出 了 GAE 和 AWS 平台 混搭 系统 的 概念 ， 从 GAE 获取 用 户 输入 文件 ， 并 使 用 AWS 
基础 设施 来 完成 MapReduce 操作 。 为 了 验证 混搭 系统 的 有 效 性 ， 南 加 州 大 学 使 用 可 扩展 的 EC2 
资源 ， 对 混搭 系统 平台 上 的 MapReduce 性 能 进行 了 测试 实验 "” ， 结 果 将 在 下 面 介 绍 。 云 混搭 系 


统 提 供 商 期 望 把 两 个 云 平台 连接 在 一 起 。 


云 混搭 系统 提供 商 


图 9-4 GAE 和 AWS 云 平台 之 间 的 混搭 系统 

i: 由 南 加 州 大 学 的 V. Dixit 提供 [18] 。 

云 混搭 系统 设计 发 挥 了 谷歌 的 Web 灵活 性 和 AWS EC2 的 扩展 能 力 。 用 户 可 以 在 GAE 上 编写 
灵活 的 软件 ， 并 在 AWS 上 使 用 用 户 的 输入 来 执行 并 行 计算 操作 。 另 外 ,创建 者 可 以 将 并 行 计算 
操作 应 用 于 用 户 拥 有 的 集群 。AWS 并 不 像 可 扩展 的 Web 接口 一 样 易 用 ， 这 是 因为 EC2 的 大 小 需 
要 随 着 用 户 请 求 而 增长 。 此 外 ， 用 户 必须 建立 名 字 服 务 器 以 便 把 终端 服务 器 隔离 起 来 ， 防 止 终端 
服务 器 在 网 络 上 直接 可 见 。 而 谷歌 在 这 方面 却 非常 高 效 。 a 

像 eBay 这 种 在 线 企业 ， 为 了 提升 销售 额 需 要 为 客户 提供 相关 结果 。 这 就 要 求 较 强 的 计算 能 
力 ， 而 这 种 能 力 超出 了 基于 Web 体系 结构 (如 GAE) 的 服务 范围 。 所 以 这 样 的 企业 需要 较 大 的 
计算 平台 ， 而 这 种 平台 可 以 从 亚 马 孙 的 AWS 平台 获得 。 该 模式 允许 用 户 在 一 个 虚拟 机 上 进行 大 
量 的 计算 。 对 于 一 个 在 Windows 主机 上 使 用 Excel 处 理 信 息 并 在 基于 UNIX 的 系统 上 运行 计算 代 
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码 的 企业 来 说 ，GAE 由 于 不 具有 任何 “执行 ”程序 的 能 力 变 得 没有 用 处 。 事 实 上 ， 企 业 所 需 的 
任何 可 执行 代码 都 不 能 使 用 谷歌 的 服务 模式 ， 此 时 AWS 就 成 为 完成 该 任务 的 首选 。 

9.1.3.2 云 混搭 系统 实验 结果 

我 们 用 Phython 编写 了 一 个 字数 统计 程序 ， 该 程序 对 2GB 的 大 规模 数据 集 进行 字数 统计 。 这 
个 作业 从 GAE 提交 ， 并 在 亚马逊 的 EC2 平台 上 运 i20 
行 。 为 了 实现 并 行 执行 ， 实 验 在 EC2 的 虚拟 机 集群 D 大 数据 集 
上 使 用 了 MapReduce 机 制 ， 虚 拟 机 数目 从 1 到 60 1000 Lea { 
可 变 。 实 验 结果 如 图 9-5 所 示 ， 其 中 ， 我 们 使 用 了 
寡 回 归来 拟 合 字数 统计 所 需 的 时 间 。 可 以 看 出 , 随 800 
着 EC2 集群 虚拟 机 节点 数目 从 1 增长 到 60， 所 需 时 
间 以 近似 寡 律 的 规律 在 下 降 ， 说 明 具 有 良好 的 可 扩 
展 性 。 在 一 个 虚拟 机 节点 上 处 理 2GB 的 数据 需要 
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大 数据 集 
(2GB ) 


600 


时 间 (CE) 








1000 秒 ， 而 当 节 点 数目 增长 到 60 个 时 ， 所 需 时 间 id 











减少 到 了 300 # 








9.1.3.3 云 混搭 系统 的 优势 an 

对 于 一 个 创业 公司 来 说 ， 如 果 它 提供 基于 Web E 
的 且 需 要 大 量 存储 空间 的 应 用 ， 或 者 对 网 页 不 间断 ey Wat we ae at her 
在 线 的 依赖 程度 非常 高 ， 那 么 它 应 该 考虑 提供 动态 FARE 
扩展 机 制 〈 基 于 负载 的 扩展 ) 的 云 提供 商 。 对 于 创 图 9-5 云 混搭 系统 的 可 扩展 性 能 ，2GB 的 数据 
业 公司 来 说 ， 需 求 的 突然 增长 是 非常 常见 的 ， 而 这 集 ， 执 行 时 间 随 着 虚拟 机 实例 的 增长 
种 云 提供 商 即使 在 需求 突然 增长 的 情况 下 ， 仍 然 提 而 下 降 


注 : ,Dini [18] 。 
供 良好 的 可 用 性 。 此 外 ,快速 和 自动 的 向 下 扩展 能 re Wa 


力 能 够 减少 企业 的 运营 成 本 。 企 业 计算 平台 不 仅 需要 提供 可 扩展 的 服务 ， 而 且 需 要 提供 生存 和 
竞争 所 需 的 灵活 性 。 云 混搭 系统 能 够 结合 多 种 平台 或 者 API， 从 而 提供 更 加 灵活 的 广泛 服务 : 

o EC2 虚拟 集群 上 的 可 扩展 性 : MapReduce 的 实现 可 以 根据 问题 的 大 小 和 虚拟 集群 的 规模 
扩展 。 南 加 州 大 学 使 用 EC2 对 MapReduce 进行 了 实验 ， 实 验 结果 说 明了 EC2 的 良好 扩展 
能 力 。 

。 GAE 接口 的 灵活 性 : 云 混搭 系 统 平台 结合 了 GAE 和 AWS， 利 用 了 谷歌 的 Web 接口 和 亚 
马 逊 EC2 的 计算 能 力 。GAE 用 来 搭建 上 传 文档 的 网 页 ， 而 EC2 用 来 运行 MapReduce， 最 
终结 果 返 回 给 谷歌 用 户 。 

9.1.3.4 云 混搭 系统 总 结 

在 建立 可 扩展 和 灵活 的 云 混 搭 系统 平台 方面 ， 大 多 数 流 行 的 云 平台 对 创业 和 知名 公司 都 是 
非常 有 潜力 的 。 前 面 提 到 的 各 种 协同 技术 为 下 述 两 个 问题 提供 了 建议 : (1) 为 了 实现 随 用 户 和 
数据 增长 的 可 扩展 性 ， 企 业 需 要 做 什么 ? (2) 在 这 样 的 环境 下 ， 为 了 具有 灵活 性 又 需要 什么 ? 
云 混搭 系统 提供 了 一 种 不 被 绑 定 在 任意 一 个 平台 或 者 实现 的 灵活 性 加 ] 。 | 

为 了 保证 云 平台 之 间 无 缝 混搭 ， 云 平台 提供 商 之 间 需 要 确立 服务 等 级 协议 (Service Level 
Agreement，SLA) ， 他 们 必须 提供 这 种 无 颖 混搭 功能 。 云 提供 商 之 间 缺 乏 安全 性 会 成 为 规模 扩展 
的 瓶 颈 。 然 而 ， 这 正 是 混搭 方法 灵活 性 的 作用 ， 它 使 跨 平 台 的 迁移 变 得 非常 容易 。 

应 用 混搭 系统 的 扩展 性 和 灵活 性 ， 私 有 云 平台 的 构建 会 变 得 更 加 高 效 ， 尤 其 是 在 用 户 或 者 
数据 快速 增长 阶段 。 借 助 模块 化 数据 中 心 ， 在 地 域 上 广泛 分 布 的 云 提供 商 之 间 传 输 数 据 带 来 的 
开销 可 以 减少 。 尽 管 MapReduce 的 实验 结果 说 明了 云 混搭 的 可 行 性 ,但 是 不 同 模式 (如 Dryad 和 
Pig Latin) 的 综合 可 能 因 不 同 的 计算 结构 和 语言 而 产生 不 同 的 结果 。 
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9.1.4 移动 云 计算 平台 Cloudiet 

最 近 ， 卡 内 基 - 梅 隆 大 学 、 微 软 、AT&T 和 兰 卡 斯 特大 学 的 研究 人 员 提 出 一 种 低 成 本 基础 设 

[558] W7”, 使 得 移动 设备 可 以 使 用 云 计算 。 这 这 种 思想 称 为 Cloudlet ( 云 打 ) ， 它 提供 了 一 个 资源 丰富 

的 门户 ， 用 于 更 新 移动 设备 ， 使 其 具有 访问 远程 云 的 能 力 。 门 户 是 可 信 的 ， 而 且 使 用 虚拟 机 寻找 
位 置 感知 的 云 应 用 。 该 思想 可 以 应 用 在 机 会 发 现 、 快速 信息 处 理 和 交通 的 智能 决策 中 。 Cloudlet 
使 得 移动 终端 可 以 方便 地 访问 互联 网 云 。 

9.1.4.1 Cloudlet 的 基本 思想 

9-6 说 明了 用 于 移动 云 计算 的 Cloude 基本 思想 。 移 动 终端 和 集中 式 云 或 者 数据 中 心 在 支 
持 移动 计算 方面 都 有 固有 的 缺点 。 移 动 终端 面临 有 限 的 CPU 处 理 能 力 、 存 储 容 量 和 网 络 带 宽 等 
问题 ， 不 能 用 于 处 理 大 规模 数据 。 而 另 一 方面 互联 网 中 的 远程 云 平台 面临 广域网 延迟 问题 。 云 平 
台 还 必须 处 理 大 量 客户 端 同时 登录 云 的 冲突 问题 。 
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图 9-6 基于 虚拟 机 的 移动 云 计算 应 用 平台 Cloudlet 

3; 由 Satyanarayanan 等 [74] 提供 。 

为 了 解决 上 述 问题 ， 和 连接 互联 网 的 WiFi 服务 接 人 点 类 似 ， 在 一 些 便利 站 点 〈 如 咖啡 馆 、 
书店 等 ) 部 署 Cloudlet。 这 些 广泛 部 署 的 Cloudlet 构成 了 分 布 式 云 计 算 平 台 ， 扩 展 了 用 户 可 用 的 
资源 。 其 基本 思想 是 把 Cloudlet 用 做 访问 远程 云 的 灵活 网 关 或 者 门户 。Cloudlet 可 以 在 PC、 工 作 
站 和 低 成 本 服务 器 上 实现 。 该 思想 的 主要 创新 是 使 用 基于 虚拟 机 的 灵活 性 处 理 来 自 不 同 移动 设 
备 的 请 求 。 

9.1.4.2 Cloudlet 和 云 的 不 同 

正如 表 9-2 所 示 ，Cloudlet 是 去 中 心 和 自 管理 的 ， 就 像 一 个 “盒子 内 的 虚拟 数据 中 心 ”。 
Cloudlet 在 局 域 网 延迟 和 带宽 环境 下 每 次 处 理 少量 用 户 ， 而 通常 的 云 平台 则 是 集中 式 的 大 规模 数 
据 中 心 。 云 平台 由 专业 的 人 员 管 理 ， 需 要 带 有 不 间断 电源 和 冷却 的 房间 放置 大 量 机 器 。 移 动 设备 
访问 远程 云 的 主要 问题 是 互联 网 或 者 广域网 上 的 高 延迟 ， 当 成 千 上 万 的 用 户 同时 请 求 服务 时 ， 

问题 变 得 更 加 复杂 。 











表 9-2 本 地 Cloudlet 和 远程 云 的 不 同 














Cloudiet 云 
状态 仅 软 状态 软 硬 状态 并 存 
管理 自 管理 ; 少量 或 者 无 专业 管理 专业 管理 ，7 x24 小 时 工作 
环境 位 于 商业 站 点 的 “盒子 内 的 数据 中 心 ” | 带 有 电源 调节 和 冷却 系统 的 机 房 
所 有 方式 由 本 地 企业 拥有 的 去 中 心 方式 由 亚马逊 和 雅虎 等 公司 拥有 的 中 心 化 方式 
网 络 i 局 域 网 延迟 /带宽 互联 网 延迟 /带宽 
共享 每 次 少量 用 户 每 次 100 ~ 1000 用 户 
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9.1.4.3 Cloudlet 内 的 快速 虚拟 机 整合 
卡 内 基 - 梅 隆 大 学 (CMU) 建立 了 称 为 Kimberley 的 Cloudlet 原型 ， 在 Cloudlet 宿主 上 合成 


一 个 虚拟 机 覆盖 网 络 。CMU 的 结果 显示 gana ons 
虚拟 机 合成 可 以 在 100 秒 内 完成 。 换 句 一 pe 

话说 ， 它 在 临时 的 Cloudlet 上 建立 了 一 个 s 

定制 的 虚拟 机 覆盖 网 络 ， 从 而 绑 定 远程 Baal ° 

云 资源 来 满足 用 户 需求 。 图 9-7 给 出 了 在 rr 

Kimberley 中 动态 虚拟 机 整合 的 流程 图 。 一 rs ( 基础 + 覆盖 网 络 ) 一 运行 虚拟 机 
个 小 型 的 虚拟 机 网 络 由 移动 设备 传输 到 运 执行 


行 基础 虚拟 机 的 Cloudlet。 虚 拟 机 覆盖 网 FAP USHA 





e 
络 加 上 基础 虚拟 机 构成 了 移动 设备 的 特别 Ede < Ne : 
运行 环境 ， 移 动 设备 通过 Cloudlet ADI 结束 使 用 ag 
问 云 应 用 。 信 任 和 安全 问题 同样 也 是 i 
Cloudlet 部 署 时 主要 考虑 的 因素 。 wae ere ee EAH 


9.1.4.4 物 联网 应 用 中 的 移动 和 安 
图 9-7 构建 在 CMU 的 Kimberley 原型 Cloudlet: 快速 虚 


全 支持 
7 拟 机 整合 560 
表 9-3 总 结 了 在 移动 计算 和 云 支持 注 ; 由 Satyanarayanan 等 人 [74] 提供 。 


的 物 联网 应 用 中 的 移动 支持 、 数 据 保 护 、 

安全 基础 设施 和 信任 管理 。 安 全 是 为 了 在 固定 和 移动 分 布 式 计算 环境 中 保护 表 9-3 所 列 出 的 云 计 
算 服务 。 移 动 支持 则 包括 云 平台 移动 访问 所 需 的 特殊 接口 、 移 动 API 设计 和 无 线 PKI (Public 
Key Infrastructure ， 公 和 钥 基 础 设施 ) 等 。VPN (Virtual Private Network ， 虚 拟 专 用 网 络 ) 也 可 以 用 
来 保护 云 平 台 。 数 据 保 护 则 包括 文件 /日 志 访 问 控 制 、 数 据 着 色 和 版 权 保护 等 。 为 了 应 对 软 /硬件 
失效 ， 还 需要 灾难 恢复 机 制 。 云 安全 可 以 通过 多 种 方式 得 到 加 强 ， 包 括 建立 信任 根 、 保 护 虚拟 机 
提供 过 程 、 使 用 软件 水 印 、 在 主机 和 网 络 层 使 用 防火 墙 和 人 侵 检测 系统 (IDS) 。 最 近 提 出 的 信 
任 覆 盖 网 络 和 信誉 系统 "也 可 以 用 于 可 信 云 计算 中 ,保护 数据 中 心 。 


表 9-3 物 联 网 应 用 中 的 移动 和 安全 支持 



















物 联网 服务 层次 移动 支持 和 数据 保护 方法 加 强 云 安全 的 硬件 和 软件 方法 
° 特殊 云 接 只 © 软 /硬件 信任 根 
e 移动 API 设计 。 虚拟 机 安全 提供 
数据 感知 和 网 络 支持 。 文 件 /日 志 访问 控制 。 坎 件 水 印 
。 数 据 着 色 。 基 于 主机 的 防火 墙 和 和信 侵 检测 系统 
+ 
。 使 用 无 线 PKI 。 基 于 网 络 的 防火 墙 和 和 侵 检测 系统 
用 于 处 理 感知 数据 的 云 | © MAWE 。 ABER mee 
平台 支持 。 版 权 保护 。 信 誉 系统 
e VPN 。 操作 系统 补丁 管理 









9.2 分 布 式 系统 和 云 的 性 能 


本 节 将 研究 分 布 式 HPC 系统 和 云 或 者 基于 数据 中 心 的 HTC 系统 的 性 能 问题 。 首 先 ， 我们 介 
绍 由 Randal Bryant 引入 的 数据 密集 型 可 扩展 计算 (Data-Intensive Scalable Computing, DISC) 模 
R, HPC 系统 正在 从 现在 超级 计算 机 的 每 秒 千 万 亿 次 浮 点 运算 (Pflops) 的 性 能 向 未 来 亿 亿 次 
(exascale) 浮 点 运算 能 力 发 展 。HTC 系统 的 性 能 则 主要 使 用 每 个 单位 时 间 可 以 处 理 的 用 户 任务 
数 来 衡量 〈 即 吞吐 量 ) 。 l 
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本 节 将 给 出 衡量 HPC 系统 的 主要 性 能 指标 ， 如 持久 速度 、 系 统 效 能 和 可 用 性 等 。HTC 系统 
从 吞吐 量 和 服务 质量 两 个 方面 评价 。 此 外 ， 本 节 将 研究 负载 特征 方法 ， 以 预测 网 格 或 者 云 系 统 的 
性 能 。 最 后 给 出 一 些 基准 性 能 实验 结果 ， 这 些 实验 包括 清华 大 学 的 实验 和 印第安 纳 大 学 的 云 基 

准 实 验 。 
9.2.1 科研 云 综述 

人 们 对 用 于 科研 的 云 已 经 进行 了 大 量 的 调研 ，6. 2. 6 节 也 综述 了 适用 的 应 用 类 型 。 我 们 已 经 
综述 了 一 些 正在 研发 的 科研 云 软件 ， 而 这 里 关注 科研 云 的 基础 设施 。 有 趣 的 是 ， 虽 然 商业 云 快速 
扩张 ， 但 科研 云 并 非 如 此 。 科 研 云 与 商业 云 及 第 7 章 介绍 的 TeraGrid 大 规模 超级 计算 机 相 比 ， 规 
模 仍然 较 小 。 本 节 将 介绍 三 种 用 于 科研 的 云 。 

9.2.1.1 未 来 网 格 (FutureGrid) 

未 来 网 格 如 图 9-8 所 示 ， 是 由 美国 国家 自然 基金 (NSF) 资助 的 TeraGrid 的 实验 组 件 ， 是 在 
Grid’5000 的 概念 下 设计 的 。 未 来 网 格 项 目 由 印第安 纳 大 学 牵头 (硬件 、 体 系 结构 、 核 心软 件 、 
支持 ) ， 并 与 其 他 9 家 大 学 和 科研 院 所 合作 ， 包 括 普度 大 学 (ATC 硬件 ) 、 位 于 加 州 大 学 圣地 亚 
哥 分 校 的 圣地 亚 哥 超级 计算 中 心 〈 硬 件 、INCA 、 监 视 ) 、 芝 加 哥 大 学 / 阿 贡 国 家 实验 室 (硬件 、 
Nimbus) 、 佛 罗 里 达 大 学 (硬件 、VINE、 教 育 和 公众 平台 ) 、 南 加 州 大 学 信息 科学 中 心 〈 用 于 管 
理 实验 的 Pegasus 工作 流 软件 ) 、 田 纳西 州 大 学 、Knoxville (基准 程序 ) 、 得 克 萨 斯 大 学 奥 斯 丁 分 
校 /得 克 萨 斯 高 级 计算 中 心 (硬件 、 门 户 ) 、 维 吉 尼 亚 大 学 〈 互 操作 和 网 格 软件 ) 、 德 累 斯 顿 技术 
大 学 的 信息 服务 中 心 和 GWT-TUD (VAMPIR 软件 ) 。 







E 芝加哥 大 学 :7TF IBM 672 核 

B 普度 大 学 : 4TF Dell 384 核 

BB 印第安 纳 大 学 : 11TF IBM 1024 核 
TTF Cray 684 核 
“STF 数据 /存储 

南 加 州 大 学 圣地 亚 于 oe 

EE 南 加 州 大 学 圣地 亚 哥 分 校 : 7TF IBM 672% 

B 得 克 萨 斯 高 级 计算 中 心 : 12TF Dell 1152 核 

E 佛罗里达 大 学 : 3TF IBM 256 核 






得 克 萨 斯 高 级 计算 中 心 


图 9-8 分 布 在 美国 的 未 来 网 格 分 布 式 系统 测试 床 
562 iÈ: 由 Judy Qiu!) 提供 。 

未 来 网 格 尽管 是 一 个 基础 设施 项 目 ， 但 它 需 要 大 量 的 系统 研发 来 实现 目标 。 未 来 网 格 不 是 
一 个 商业 系统 ， 而 是 一 个 支持 灵活 研发 和 测试 平台 的 环境 ， 为 诉求 互 操作 、 功 能 和 性 能 问题 的 中 
间 件 和 应 用 用 户 服 务 。 未 来 网 格 方便 了 研究 人 员 实 验 : 研究 人 员 通 过 提交 实验 计划 来 进行 实验 ， 
这 些 计划 将 会 通过 先进 的 工作 流 引 擎 来 执行 ， 维 护 必 要 的 源 和 状态 信息 以 便 重 放 。 

测试 床 由 三 部 分 组 成 : 地 域 上 分 布 的 异 构 计 算 系 统 、 数 据 管理 系统 〈 保 存 元 数据 和 不 断 增 
长 的 软件 镜像 库 ) 、 人 允许 隔离 和 安全 实验 的 专用 网 络 。 测 试 床 以 最 小 化 开销 和 最 大 化 性 能 为 目 
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标 ， 既 支持 基于 虚拟 机 的 环境 ， 也 支持 本 地 操作 系统 。 项 目 成 员 正 在 整合 现 有 的 开源 软件 包 ， 创 
建 易 用 的 软件 环境 ， 以 支持 实例 化 、 执 行 ， 以 及 网 格 各 云 计 算 实验 的 记录 。 

未 来 网 格 的 一 个 目标 是 认识 云 计 算 方 法 的 行为 和 效用 。 通 过 请 求 在 虚拟 和 裸 机 系统 上 进行 
链接 实验 ， 研 究 人 员 可 以 测量 云 技术 的 开销 。 更 进一步 ， 它 为 高 级 计算 机 基础 设施 课程 提供 了 一 
个 丰富 的 教育 和 教学 平台 。 就 这 一 方面 来 说 ， 未 来 网 格 将 在 支持 的 软件 上 建立 教程 ， 并 提供 一 系 
列 支 持 诸如 基础 网 格 和 并 行 计算 的 在 线 实 验 室 装置 (定制 的 基于 虚拟 机 的 镜像 ) 。 

此 外 ， 一 些 特 殊 课 程 可 以 在 未 来 网 格 上 开发 。 这 些 课 程 需要 一 定 的 特权 和 系统 破坏 能 力 ， 很 
难 在 商业 系统 上 得 到 满足 。 未 来 网 格 提供 7 个 不 同 的 系统 (集群 ) ， 这 些 系 统 由 约 5000 个 具有 不 
同 优化 能 力 的 核 组 成 ,还 有 一 个 专用 网 络 (除了 得 克 萨 斯 的 Alamo 系统 外 ) ， 人 允许 安全 隔离 和 专 
用 网 络 减 损 装 置 的 使 用 。 云 平台 通过 在 hypervisor 之 上 建立 环境 来 提供 良好 的 灵活 性 。 未 来 网 格 
遵循 不 同 的 路 线 ， 按 需 在 裸 机 上 动态 提供 软件 。 

在 2010 年 11 月 时 ， 重启 未 来 网 格 上 的 一 个 节点 需要 约 4 分钟 "”。 用 户 可 以 从 大 量 不 同 的 
镜像 中 选择 ， 以 实现 测试 环境 。 这 些 镜像 需要 充分 考 虚 安 全。 未 来 网 格 目前 在 不 同 的 层次 提供 选 
##: hypervisor 级 (Xen，KVM)、 操 作 系 统 (Linux、Windows)、 云 环境 (Nimbus、Eucalyptus、 
OpenNebula) 、 中 间 件 (gLite、Unicore 、Globus ) 、 编 程 范式 (MPI, OpenMP, Hadoop, Dryad) 、 
特定 的 能 力 (如 由 ScaleMP 带 来 的 分 布 式 共享 内 存 ) 。 

未 来 网 格 期 望 随 着 用 户 建立 新 的 环境 ， 并 把 它们 存储 在 库 中 来 不 断 增加 可 用 的 镜像 。 图 9-9 给 
出 了 未 来 网 格 项 目 开发 的 软件 栈 。 重 要 的 组 件 包 括 人 口 接口 、 监 视 能 力 (INCA、 电 力 [green IT])、 
实验 管理 者 (一 种 支持 执行 情景 再 现 的 特征 ) 、 镜 像 产 生 和 仓库 特征 、VINE 互联 云 网 络 (虚拟 
网 络 建立 的 虚拟 集群 )、 性 能 库 、 运 行 时 自 适 应 插入 服务 (调度 和 部 署 镜像 )、 安 全 特征 (包括 
隔离 网 络 的 使 用 和 认证 、 授 权 ) 。 

9. 2. 1.2 Grid’s000*! 

如 图 7-6 所 示 ，Grid5000 分 布 式 系统 链接 位 于 法 国 的 9 个 站 点 。 最 近 巴 西 的 阿 雷 格 里 作为 第 
10 个 站 点 加 入 。 该 系统 包含 1500 个 节点 、5000 多 个 核 ， 用 于 各 种 各 样 的 计算 机 科学 研究 项 目 ，[565 
包括 云 计算 、 网 格 计算 、 绿 色 IT 等 以 软件 系统 和 性 能 为 目标 的 项 目 。Grid'5000 站 在 为 用 户 提供 
一 种 可 配置 、 可 控 和 可 监测 的 实验 平台 ， 其 工作 涉及 各 个 层次 ， 包 括 应 用 、 编 程 环境 、 应 用 运行 
时 、 网 格 、 云 、P2P 中 间 件 、 操 作 系统 和 网 络 。 

9.2.1.3  Magellan!”! 

Magellan 是 最 大 的 研究 云 ， 位 于 商 个 美国 能 源 部 站 点 : 阿尔 贡 ( Argonne)' 和 国家 能 源 研 究 
科学 计算 中 心 (NERSC) 。 每 个 站 点 由 中 等 规模 的 集群 和 存储 设备 组 成 。NERSC 系统 由 700 多 个 
节点 、6000 个 左右 的 核 组 成 ， 而 阿尔 贡 系 统 由 500 多 个 节点 和 4000 个 核 组 成 。 这 些 系 统 致力 于 
解决 以 下 各 种 研究 问题 ， 

。 针对 科学 应 用 ， 比 较 云 计算 与 传统 集群 系统 、 超 级 计算 环境 的 性 能 ， 特 别 关 注 那 些 正在 

本 地 集群 运行 的 应 用 或 者 需要 不 超过 1000 个 核 的 中 列 数 应 用 。 
。 测试 针对 数据 密集 型 应 用 的 固态 (闪存) 存储 。 对 数据 密集 型 应 用 ， 特 别 是 读 密集 型 应 
用 ， 固 态 存储 的 带宽 、LO 操作 率 (LOPS) KIA, IERA RER. 

。 探究 云 计算 的 可 移植 性 ， 特 别 关注 MapReduce, 

。 在 云 平台 上 提供 入 口 ， 用 于 方便 地 访问 应 用 、 数 据 库 或 者 自动 化 工作 流 。 

© 测试 蔡 代 资源 模型 。 例 如 当 可 用 性 是 核心 时 ， 起 拟 专 用 集群 应 该 保障 在 每 一 段 特定 时 间 

对 特定 研究 组 的 访问 。 
。 理解 哪些 科学 应 用 和 用 户 群 体 最 适合 使 用 云 计 算 。 
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用 户 和 未 来 网 属 支 持 的 软件 ， motrin a 
Globus, MPI, Hadoop, Dryad 等 实验 中 使 用 


未 来 网 格 中 间 件 服务 和 软件 














未 来 网 格 核 心 资源 


图 9-9 未 来 网 格 软 件 栈 
iż: 由 Judy Qiu 提供 I30] 。 
。 理解 建立 大 规模 科学 云 所 需 的 部 署 和 支持 问题 。 运 营 科学 去 是否 有 效 和 可 行 ? 如 何 应 用 
商业 云 ? 
。 确定 现 有 云 软件 对 科学 需求 的 满足 程度 ， 确 定 是 否 扩展 或 者 加 强 现 有 的 云 软件 来 提高 
效用 。 
。 确定 云 计 算 对 数据 密集 型 科学 应 用 的 支持 程度 。 
。 确定 虚拟 云 环境 中 解决 安全 问题 遇 到 的 挑战 。 
9.2.1.4 Open Cirrus'™*! 
Open Cirrus 是 由 14 个 合作 单位 组 成 的 探索 云 计 算 的 联盟 。 这 个 强大 的 测试 床 由 位 于 4 个 主 
要 站 点 的 600 个 节点 组 成 ，4 个 站 点 包括 KIT (卡尔 斯 鲁 厄 理工 学 院 ) UIUC (伊利 诺 伊 大 学 厄 
巴 纳 -香槟 分 校 ) 、 帕 洛 阿 尔 托 的 HP 实验 室 、 匹 效 堡 Intel 研究 院 的 BigData 集群 。Open Cirrus 测 
试 床 用 来 支持 大 规模 服务 的 设计 、 供 给 和 管理 方面 的 研究 工作 。 
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测试 床 是 开放 的 ,鼓励 在 服务 和 数据 中 心 管理 各 方面 的 研究 。 此 外 ，Open Cirrus 旨 在 围绕 测 
试 床 形 成 合作 的 团体 ， 提 供 共 享 工 具 、 课 程 和 最 优 实践 的 方法 ， 提 供用 基准 程序 测试 和 数据 中 心 
服务 管理 替代 机 制 比 较 的 方法 。 

9.2.1.5 开放 云 测试 床 [351 

开放 云 联 盟 (Open Cloud Consortium, OCC) 是 一 个 会 员 制 组 织 ， 它 支持 云 间 计算 标准 和 云 
间 互 操作 框架 的 研发 ， 开 发 云 计算 的 基准 程序 ， 而 且 支 持 云 计算 的 参考 实现 。OCC 管理 着 一 个 
云 计算 测试 床 ， 称 为 开放 云 测试 床 ， 它 也 运营 着 一 个 称 为 开放 科学 数据 云 的 云 计算 基础 设施 ， 用 
于 支持 科学 研究 ， 特 别 是 数据 密集 型 计算 的 研究 。 在 2010 年 11 月 ， 开 放 云 测试 床 包括 位 于 4 个 
站 点 的 250 个 节点 和 1000 个 核 ， 这些 站 点 分 别 位 于 芝加哥 (2 个) A CAR, TN) 和 的 
REXER 

9.2.1.6 4am 

科学 云 是 一 个 开放 云 联 盟 ， 为 科研 团体 使 用 Nimbus 提供 计算 资源 。 它 的 站 点 分 布 于 欧洲 和 
美国 。 在 2010 年 11 月 ， 科 学 云 由 位 于 芝加哥 大 学 的 Nimbus 云 、 佛 罗 里 达 大 学 的 Stratus 、 普 度 大 
学 的 Wispy， 以 及 位 于 捷克 共和 国 的 一 些 机 器 组 成 。 

9.2.1.7 Sky 计算 [4] 

该 项 目 和 科学 云 结盟 ， 与 欧洲 的 Reservoir 项 目 类 似 ， 则 在 把 多 个 云 联盟 起 来 形成 统一 资源 。 
把 多 个 相互 独立 的 云 链 接 起 来 不 仅 有 助 于 提高 可 扩展 性 (增加 资源 的 数目 ) ， 而 且 可 以 提高 容错 
能 力 。 联 盟 也 可 以 实现 私有 云 和 公有 云 形成 的 混合 云 。Sky 计算 通过 扩展 Nimbus ( 详 见 6.6.1 
节 ) 来 支持 多 个 不 同 的 云 。 

Sky 计算 项 目的 一 个 典型 例子 是 生物 信息 程序 BLAST, H Hadoop 控制 、 运 行 在 位 于 6 个 不 同 
站 点 的 1000 个 核 上 ， 其 中 3 个 站 点 在 美国 的 未 来 网 格 上 (前面 已 经 讨论 ) ，3 个 在 欧洲 的 
Grid’5000 上 5 。Nimbus 和 Hadoop 使 得 这 种 分 布 式 联盟 成 为 可 能 : Nimbus 实现 云 管理 ， 提 供 虚 拟 
机 供给 和 上 下 文 服 务 ， 允 许多 个 云 之 间 多 对 多 通信 ; Hadoop 则 实现 BLAST 的 并 行 容错 执行 。 
Reservoir 项 目 也 支持 a oe ey! 。 

9.2.1.8 Venus-C!”?! 

Venus-C 是 欧洲 的 一 个 项 目 ， 探 索 云 计算 在 各 个 领域 的 可 用 性 ， 包 括 构建 结构 分 析 、3D 体 
系 结构 演 染 、 海 洋 生物 种 群 预测 、 火 灾 风 险 预测 、 系 统 生 物 学 和 药品 研发 等 。 项 目 使 用 了 两 个 欧 
YH HPC 中 心 的 Azure (Windows P) 和 基于 Eucalyptus 的 基础 设施 ， 这 两 个 中 心 是 瑞典 的 皇家 
理工 学 院 (KTH) 和 西班牙 的 巴塞 罗 那 超级 计算 中 心 (BSC)。 项 目 将 为 各 种 应 用 研发 不 同 云 之 
间 的 互 操作 工具 。 
9.2.2 数据 密集 型 扩展 计算 (DISC) 

前 面 章节 已 经 提 到 ， 我 们 生活 在 数据 爆炸 的 时 代 。2007 年 ，Randal Bryant 等 人 注意 到 数据 
密集 型 扩展 计算 的 需求 。 本 节 提 炼 出 他 的 一 些 观点 并 与 基于 数据 中 心 的 云 计 算 进 行 比较 。 

9.2.2.1 大 数据 

在 如 今 数据 驱动 的 世界 ， 天 文学 、 基 因 组 学 、 自 然 语言 处 理科 学 、 地 震 模 拟 等 应 用 产生 了 海 
量 的 数据 。 此 外 ， 扫 描 书 籍 、 报 纸 和 历史 文档 形成 了 数据 的 海洋 。 在 商业 领域 ,企业 销售 信息 、 
股票 市 场 交 易 、 人 口 普查 数据 和 空中 交通 数据 都 需要 每 天 处 理 大 量 的 数据 。 其 他 的 例子 包括 娱 
乐 和 医药 领域 等 。 例 9.5 讨论 了 Bryant 提出 的 两 个 数据 源 : 沃尔玛 和 斯 隆 数 字 巡 天 。 

例 9.5 KRHA MEM FCA” 

第 一 个 大 数据 来 源 是 沃尔玛 全 球 和 运营 数据 。 沃 尔 玛 拥有 6000 个 商店 ， 供 应 链 包 含 1 万 多 家 
制造 商 ， 每 天 售 出 2.67 亿 件 商品 。 圳 普 为 沃尔玛 建立 了 每 天 处 理 4PB 数据 的 数据 中 心 。 沃 尔 玛 
需要 进行 数据 挖掘 和 供应 链 管理 方面 的 数据 密集 型 扩展 计算 ， 以 便 了 解 市 场 趋势 并 形成 定价 
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策略 。 

第 二 个 数据 源 是 斯 隆 数字 巡天 ， 位 于 新 墨西哥 天 文 台 的 天 文 望远镜 每 天 产生 200GB 的 图 像 
数据 ， 最 新 数据 集 由 关于 2.87 亿 个 太空 对 象 的 10TB 的 数据 组 成 。 在 类 似 于 DISC 的 数据 处 理 中 ， 
SkyServer 提供 不 间断 SQL 访问 。 

在 这 两 个 例子 中 ,为 了 建立 DISC 系统 处 理 海 量 数 据 ， 必 须 解 决 窗 的 处 理 管道 问题 。 使 用 多 
核 GPU 是 一 个 可 能 的 方案 ， 该 方案 利用 了 这 些 DISC 应 用 中 数据 级 的 高 度 并 行 性 。 与 超级 计算 机 
相 比 ， 云 计算 可 能 稍 慢 ， 但 可 以 通过 间 时 使 用 大 量 的 数据 中 心 来 实现 高 度 并 行 。 a 

9.2.2.2 DISC 系统 和 超级 计算 机 比较 

表 9-4 BAT DISC 系统 与 传统 超级 计算 机 4 方面 的 不 同 。 总 体 来 说 ， 超 级 计算 机 主要 应 用 
在 批 处 理 模式 ， 由 于 用 户 控制 少 ， 所 以 很 难 调整 。 在 使 用 超级 计算 机 时 ， 会 有 大 量 数据 移动 或 者 
VO 操作 。 在 超级 计算 机 上 优化 一 个 程序 的 执行 是 非常 有 挑战 性 的 。 超 级 计算 机 的 优势 在 于 ， 如 
果 一 切 都 井然 有 序 ， 它 可 以 持久 维持 原始 速度 。 


#9-4 DISC 系统 和 超级 计算 机 比较 















传统 超级 计算 机 
| 一 个 HPC 系统 ， 数 据 从 远程 站 点 获得 并 下 


特 征 数据 密集 型 扩展 计算 


HTC 数据 中 心 集群 系统 ， 收 集 和 维护 数据 。 计 

















系统 体系 结构 ke : Be 
载 到 系统 中 执行 ， 数 据 移动 开销 大 算 和 存储 放 在 一 起 以 便 快速 访问 ， 无 数据 移动 开销 

a 在 非常 低 的 层次 撰写 的 、 依 赖 于 机 器 的 程 | ”数据 上 不 依赖 于 机 器 的 应 用 程序 。 使 用 运行 时 系 
序 。 使 用 少量 的 软件 工具 ， 需 要 专家 来 优化 | 统 控 制 ， 通 过 负载 均衡 实现 优化 执行 等 

l 当 资源 就 绪 时 ， 核 心机 器 批 处 理 数据 。 使 | 大 规模 用 户 同时 进行 带 有 优先 控制 和 用 户 干预 的 

系统 访问 和 使 用 模式 | 用 远程 站 点 的 离线 虚拟 化 交互 访问 

ee 脆弱 系统 ， 从 最 近 的 检查 点 恢复 。 维 护 时 | 灵活 的 错误 检测 和 恢复 。 当 有 失效 发 生 时 ， 借 且 
必须 关闭 机 器 元 余 技 术 实现 性 能 的 缓慢 下 降 





iż: 由 Randal Bryant 提供 [5] 。 


Ab, DISC 系统 是 HTC 数据 中 心 集群 ， 具 有 前 面 章 节 讨 论 的 服务 器 集群 系统 的 所 有 好 处 。 
换 句 话说 ，DISC 系统 在 满足 大 量 并 发 用 户 方面 更 有 优势 ， 同 时 兼顾 高 任务 吞吐 率 。 数 据 中 心 避 
免 了 单 点 失效 问题 ， 因 此 具有 更 好 的 可 靠 性 和 可 用 性 。 此 外 ，DISC 系统 对 于 小 规模 用 户 群 来 说 
具有 性 价 高 或 时 / 空 高 效 的 优势 。DISC 使 用 云 服 务 模式 处 理 分 布 式 计算 应 用 。 图 9-10 给 出 了 两 
种 超 计算 范式 的 不 同 ， 可 以 看 出 ，DISC 体系 结构 在 分 布 式 系 统 或 者 云 数据 中 心中 ， 满 足 HTC 应 


用 的 明显 优势 。 
不 依赖 于 机 器 









的 编程 模式 
依赖 于 机 器 
的 编程 模式 
a ) 传统 超级 计算 机 b ) DISC 系 统 


图 9-10 ”从 编程 者 的 角度 比较 DISC 系统 和 传统 超级 计算 机 
注 : 由 Randal Bryant 提供 [5] ， 经 许可 方 能 使 用 。 


9.2.3 HPC/HTC 系统 的 性 能 指标 
HPC 的 性 能 指标 已 经 有 较 好 的 定义 ， 过 去 系统 最 常用 的 指标 Gflops (EE 10 次 浮 点 运算 ) 
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和 Tflops (每 秒 10 次 浮 点 运算 ) ， 现 在 的 系统 常用 指标 是 Pflops (每 秒 10” 次 浮 点 运算 )， 将 来 
的 系统 常用 指标 是 Fflops (每 秒 10" 次 浮 点 运算 )。 目 前 , 已 经 有 并 行 基准 测试 程序 来 评估 HPC 
系统 对 大 规模 问题 批 处 理 的 性 能 ， 常 见 的 基准 程序 包括 Linpack Benchmark, NAS, Splash 和 
Parkbenchi 和 等 。 另 外， 商用 服务 器 、 集 群 、 数 据 中 心 和 云 系统 上 的 HTC 性 能 测试 则 是 一 个 非常 | ， 
复杂 的 问题 ， 因 为 HTC 系统 由 多 个 客户 端 同时 使 用 。 568 
HTC 的 性 能 受 多 个 正 交 因素 的 影响 ， 有 些 因素 是 可 测 的 ， 而 另 一 些 则 不 可 测 。 这 里 的 基本 
假设 是 大 量 ( 百 万 或 者 更 多 ) 独立 用 户 同 时 使 用 云 或 者 数据 中 心 的 共享 资源 ， 目 标 是 尽 可 能 满 
足 多 的 并 发 用 户 ， 即 使 每 个 用 户 程序 是 一 个 简单 的 Web 服务 、 社 会 联系 或 者 简单 的 云 存储 。 本 
节 试 图 针对 HPC 和 HTC 系统 给 出 一 些 性 能 评价 和 服务 质量 评价 模型 。 
9.2.3.1 基本 性 能 属性 
评估 MPP、 数 据 中 心 集群 和 虚拟 化 云 的 性 能 模型 有 很 大 的 差异 。 为 了 适应 云 计算 范式 的 层 
次 结构 ，IaaS 的 性 能 指标 是 PaaS 性 能 模型 的 基础 。 同 样 ， 刻 画 PaaS 性 能 的 属性 是 评价 SaaS 性 能 
的 基础 。 一 个 好 的 模型 应 该 覆盖 所 有 计算 服务 的 层次 ， 还 应 该 是 通用 的 ， 可 以 应 用 在 各 种 具有 不 
同 工 作 负载 分 布 的 云 平台 上 。 为 了 评估 云 服务 的 服务 质量 ， 对 顶层 (SaaS) 的 影响 对 底层 
(PaaS 和 IaaS) 来 说 应 该 保持 透明 。 
云 平台 应 该 同时 为 很 多 的 用 户 服 务 ， 因 此 多 任务 是 评价 分 布 式 系统 性 能 所 必须 的 。 本 节 介 
绍 5 个 基本 性 能 指标 ， 即 系统 吞吐 量 、 多 任务 可 扩展 性 、 可 用 性 、 数 据 安全 和 成 本 效益 ， 这 个 解 
析 模 型 为 模型 化 HPC 或 HTC 系统 以 及 弹性 云 给 出 了 一 阶 近似 。 通 过 增加 用 户 或 者 服务 提供 商 相 
关 的 指标 ， 该 模型 可 进一步 扩展 。 换 句 话 说， 从 基本 模型 出 发 可 扩展 生成 更 精确 的 性 能 模型 ， 以 
包含 程序 行为 、 环 境 需 求 、 服 务 质量 和 成 本 效益 等 指标 。 
9.2.3.2 系统 吞吐 量 和 效率 
通常 来 说 ， 分 布 式 系统 或 者 云 平台 的 系统 吞吐 量 是 指 单位 时 间 内 完成 的 作业 数 。 假 设 给 定 
时 间 窗 口内 作业 的 总 执行 时 间 为 Ts ， 那 么 吞吐 量 由 影响 7 的 核心 因素 决定 。 首 先 ， 我们 必须 
考察 Tu 的 各 个 主要 组 成 部 分 。 每 个 作业 在 提交 时 需要 获取 资源 ， 有 一 个 初始 化 时 间 ， 包 括 所 有 
机 器 实例 的 启动 时 间 和 用 户 作业 的 调度 时 间 。 应 用 程序 的 类 型 限制 了 水 平 扩 展 性 。 初 始 化 时 间 
归咎 于 5 个 部 分 : 基础 设施 初始 化 延迟 、 资 源 供 给 延迟 、 作 业 之 间 通 信 延 迟 、 操 作 系统 开销 和 装 
载 应 用 软件 开销 。 
操作 系统 和 软件 开销 在 执行 不 同 作业 时 是 一 样 的 ， 其 他 三 个 时 间 因 素 会 根据 问题 规模 和 系 
统管 理 策略 的 不 同 而 变化 。 为 了 简化 分 析 ， 我 们 把 5 个 时 间 因 素 混合 在 一 起 形成 单一 的 时 间 开 销 
k7,， 其 中 T, 是 在 某 一 个 固定 时 间 间 隔 内 运行 的 多 个 作业 中 这 5 个 时 间 开 销 之 和 的 平均 值 ， 而 上 
是 一 个 平台 相关 的 因子 ， 随 特定 的 系统 配置 而 改变 。 该 时 间 开 销 应 用 在 本 书 提出 的 三 个 系统 模 
Hh, ET, (n, m) 是 在 云 平 台 上 完成 n 个 独立 作业 的 执行 时 间 ， 其 中 m 是 在 给 定 的 系统 配置 
中 机 器 实例 的 数目 。 如 果 使 用 的 是 物理 服务 器 ， 那 么 机 器 实例 可 以 是 集群 节点 (或 者 处 理 器 
核 ) ; 而 如 果 使 用 的 是 虚拟 化 云 ， 那 么 机 器 实例 是 虚拟 机 。 
所 有 作业 的 执行 时 间 (或 总 完工 时 间 ) 为 Tu HAT, +T,(n，m)， 那 么 系统 吞吐 量 (r) X: 
w=n/T = n/( kT, +T (n,m)] (9-1) 
理想 情况 下 ， 与 执行 时 间 T, 相 比 ， 初 始 时 间 AT, 可 以 认为 是 非常 小 或 者 接近 0 的 ， 所 以 理想 
吞吐 量 可 以 简单 表示 为 n/T, (n, m) 。 系 统 效率 (a) 定义 为 归 一 化 的 吞吐 量 ， 即 
a = /Ln/T (nm)] = T,(n,m)/[kT, + T (n,m)] (9-2) 
系统 效率 表征 了 对 系统 提供 的 所 有 资源 的 有 效 利用 程度 。 需 要 注意 的 是 ， ET, (n, m) 中 ， 
参数 nn 和 m 随 着 负载 ( 用户 数 目 ) 和 并 行 、 分 布 式 计算 模型 的 系统 规模 (m) 而 变化 。 
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9.2.3.3 多 任务 可 扩展 性 

多 任务 是 指使 用 一 个 系统 并 行 或 者 同时 处 理 多 个 作业 。 系 统 服务 需要 同时 具有 水 平和 垂直 
扩展 能 力 ， 水 平 扩展 指 随 着 机 器 或 者 集群 规模 可 扩展 ， 而 垂直 扩展 是 指 从 应 用 到 中 间 件 、 运 行 
时 、 操 作 系统 支持 和 硬件 的 扩展 。 动 态 扩展 资源 的 能 力 是 提供 弹性 资源 的 关键 。 水 平 扩 展 增 加 同 
一 类 型 的 云 资源 ， 如 云 平 台中 可 用 虚拟 机 数目 ， 而 垂直 扩展 通过 在 服务 层次 上 增加 更 多 资源 来 
提高 性 能 。 

为 了 方便 描述 ， 这 里 集中 讨论 水 平 扩展 ， 但 会 同时 考虑 纵向 扩展 (scale-up) 和 横向 扩展 
(scale-down) 两 种 情形 。 在 有 些 情 况 下 ， 横 向 扩展 比 纵向 扩展 更 加 高 效 。 系 统 或 者 云 平 台 的 潜在 
优势 很 大 程度 上 和 按 需 动态 纵向 和 横向 扩展 资源 的 能 力 有 关 。 

下 面 定义 多 任务 扩展 能 力 6，m 仍然 是 机 器 实例 的 数目 ， 而 是 正在 执行 的 用 户 作 业 (或 任 
务 ) 总 数 。 

B= (n/m)a = (n/m)T,(n,m)/( kT, +T, (n,m)] (9-3) 

通常 情况 下 n>m, HA n 可 能 是 百 万 级 别 ， 而 m ILA. ERR, 的 情况 下 ， 扩 
展 能 力 的 上 限 大 致 为 n/m， 即 每 个 机 器 实例 平均 运行 的 用 户 作业 数目 。 额 外 开销 时 间 越 大 ， 扩 展 
能 力 越 低 。 把 扩展 能 力 提 升 到 100% 的 简单 方法 是 增加 m 以 接近 n, 但 是 在 实际 的 集群 系统 中 ， 
扩展 能 力 达到 20% 左右 已 经 是 非常 好 的 了 。 

9.2.3.4 系统 可 用 性 

系统 可 用 性 〈?7) ， 是 指 系统 正常 运行 时 间 所 占 比 例 ， 反 映 了 由 于 软件 升级 维护 、 不 可 预期 
失效 造成 的 影响 。 第 1 章 的 例 1.5 已 经 定义 了 系统 可 用 性 ， 即 MTTF (平均 无 故障 时 间 ) 与 
MTTF 和 MTTR (平均 修复 时 间 ) 之 和 的 比值 。 该 定义 适用 于 本 书 讨论 的 所 有 系统 (集群 系统 、 
MPP、 网 格 和 云 ) o 

高 可 用 性 (HA) 特 指 系统 的 可 快速 恢复 错误 、 停 工时 间 可 控 的 性 能 水 平 。“ 持 续 可 用 ” 
(Continuous Availability, CA) 是 指 达 到 了 几乎 无 失效 的 运营 水 平 。 服 务 提供 商 对 系统 的 可 用 性 
人 负责。 可 用 性 通常 要 求 达到 5 个 9， 即 系统 在 99. 999% 的 情况 下 是 正常 运行 的 ， 相 当 于 每 年 最 多 
只 能 有 5 分 钟 的 停工 时 间 。 高 可 用 集群 系统 也 可 以 要 求 6 个 9 的 可 用 水 平 ， 即 每 年 只 有 3 秒 钟 的 
停工 时 间 , 但 是 在 实际 环境 中 为 达到 如 此 高 的 可 用 性 所 需 的 开销 是 非常 大 的 。 

9.2.3.5 安全 指数 

6.3 节 和 6.5 节 评 估 了 商业 云 平台 的 脆弱 性 。 可 用 性 受到 平台 体系 结构 、 所 使 用 的 服务 模 
型 、 系 统 脆弱 性 和 对 网 络 攻击 抵御 能 力 的 影响 。 谷 歌 有 上 百 个 数据 中 心 和 超过 50 万 台 的 服务 器 ， 
其 平台 由 服务 器 集群 、GFS 和 数据 中 心 组 成 。6. 5 节 已 经 详细 讨论 了 安全 问题 ， 这 里 我 们 总 结 在 
动态 云 环境 中 影响 云 安全 的 重要 因素 。 

去 安全 受到 多 个 因素 的 影响 ， 包 括 用 户 保密 性 、 数 据 完 整 性 、 访 问 控制 、 防 火 墙 、IDS (A 
侵 检测 系统 ) 、 抵 御 病 毒 或 蠕虫 攻击 的 能 力 、 信 玲 系 统 、 版 权 保 护 、 数 据 锁定 、API、 数 据 中 心 
安全 策略 、 可 信 协 商 和 安全 审计 服务 。 在 数据 中 心中 ， 文 件 层 需要 细 粒 度 的 访问 控制 ， 资 源 站 点 
闻 的 信任 可 以 在 不 冲突 的 安全 策略 下 协商 。 为 了 保护 弹性 资源 的 安全 ， 信 誉 系统 必须 能 够 保护 
分 散 的 资源 站 点 和 数据 中 心 。 资 源 站 点 安全 指数 (6) 和 用 户 访问 记录 需要 通过 周期 性 审计 来 更 
新 维护 。 

9.2.3.6 成 本 效益 

该 指标 用 来 衡量 给 定 系 统 所 能 获得 的 经 济 效益 。 下 面 所 给 出 的 成 本 模型 是 大 致 估算 模型 。 
该 模型 同时 考虑 了 云 服务 提供 商 和 数据 中 心 拥 有 者 的 成 本 。 云 提供 商 需 要 为 其 使 用 的 资源 向 数 
据 中 心 拥 有 者 付费 ， 即 使 二 者 属于 同一 家 公司 。 如 果 不 考虑 所 使 用 的 云 服务 模型 ， 云 使 用 费用 主 
要 由 所 使 用 的 时 间 来 决定 。 
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我 们 用 。 表示 云 服务 商 向 用 户 每 小 时 的 收费 , 天 表示 向 用 户 提供 的 服务 时 间 (小 时 )。 服 
务 提供 商 从 用 户 收 取 的 总 费用 为 Cost, = ice， 提供 商 向 数据 中 心 拥有 者 付 的 总 费用 可 以 估算 为 
Cost, =h(d/u), HP d 是 数据 中 心 每 小 时 收取 的 费用 ，w 是 数据 中 心 资源 的 利用 率 。 伯 克利 研究 
组 的 估算 结果 显示 u 的 范围 在 0.6 ~0.8 之 间 。 云 服务 的 成 本 效益 (uv) 表示 服务 提供 商 的 利 
润 率 。 
y = (Cost, — Cost,)/Cost, = (he — hd/u)/(hd/u) = cu/d -1 (9-4) 
假设 在 亚马逊 EC2 中 ，c =3 美元 /小 时 ，d =1 美元 /小 时 ， wu =60% ， 那 么 服务 商 的 利润 率 为 
80% 。 该 成 本 模型 是 服务 提供 商 利润 的 粗略 估计 。 如 果 服 务 提供 商 向 用 户 收取 的 费用 降低 为 2 美 
元 /小 时 ， 利 润 率 将 降 到 20% 。 通 常 为 了 实现 高 利润 ，c d 要 大 得 多 。 
9.2.4 云 计算 的 服务 质量 
我 们 用 一 个 称 为 云 服务 质量 ( Quality of Cloud Services, QoCS) 的 混合 指标 0 来 评价 云 平 台 
的 累计 性 能 。 在 不 考虑 所 使 用 的 服务 模型 的 情况 下 ， 该 指标 刻画 了 云 服 务 的 总 体质 量 。 我 们 使 用 
5 维 的 基 维 亚 特 图 (Kiviat graph) 来 图 形 化 表示 云 的 总 体 性 能 或 者 服务 质量 。 每 个 基 维 亚 特 图 有 
5 个 正 交 的 维度 ， 分 别 表 示 前 面 介绍 的 5 个 性 能 指标 。 基 维 亚 特 图 给 出 了 云 服务 能 力 的 总 体 视 
图 ， 图 中 阴影 部 分 表示 了 提供 的 云 服务 的 累计 强度 或 者 质量 。 
对 于 一 个 运行 在 云 平台 的 应 用 来 说 ， 基 维 亚 特 图 的 阴影 部 分 4,。 越 大 ， 则 云 服务 质量 越 好 。 
图 9-11a 给 出 了 基 维 亚 特 图 表示 的 5 个 维度 的 范围 。 假 设 用 4 .表示 基 维 亚 特 五 角形 图 的 理想 
区 域 ， 每 个 维度 的 范围 归 一 化 为 1。 换 句 话说， 五 角形 图 所 有 维度 的 最 大 半径 为 1， 每 个 维度 的 
取 值 范围 为 0 到 1:0 位 于 五 角形 的 中 心 ， 是 5 个 性 能 参数 (a, B, y, 6, u) 的 最 小 值 ; 1 WR 
示 每 个 维度 所 能 达到 的 最 大 性 能 。QoCS 形式 化 定义 为 ; 
0 = A shaded” A pentagon _ (9-5) 
QoCS 指标 9 越 小 ， 系 统 性 能 越 差 .9 越 大 、 越 趋向 于 1， 系 统 性 能 越 高 。 图 9-1lb ~d 给 出 了 
三 种 服务 对 应 的 基 维 亚 特 图 ， 这 些 服务 假设 运行 于 三 种 云 平台 ， 结 果 是 基于 前 面 云 性 能 解析 模 
型 得 到 的 。 在 类 似 于 亚 马 人 带 、 谷 歌 和 Salesforce. com 的 云 平 台 上 进行 实际 基准 实验 ， 从 而 对 分 析 
结果 进行 验证 将 是 非常 有 意义 的 工作 。 
例 9.6 三 种 云 服务 的 性 能 分 析 
假设 使 用 三 种 云 服 务 模式 运行 三 种 常见 云 应 用 ,那么 我 们 可 以 评价 这 三 种 云 服务 模式 的 性 
能 。IaaS 的 性 能 测试 可 以 运行 在 亚马逊 的 EC2 E, Saas 的 测试 可 以 运行 在 带 有 Salesforce. com 的 
CRM 软件 的 GAE E, mi Hadoop 应 用 在 IBM 的 蓝 云 上 运行 以 测试 Paas 性 能 。 这 些 测试 是 在 两 种 
极端 的 条 件 下 进行 的 : 一 个 对 应 高 可 用 性 和 高 安全 保证 的 最 佳 场景 ， 另 一 个 是 低 可 用 性 和 没有 
安全 的 最 差 情 况 。 其 他 3 个 维度 所 代表 的 条 件 是 在 根据 经 验 设 定 的 。 
在 图 9-1ib 和 9-11d 中 ， 基 维 亚 特 图 较 小 的 阴影 面积 是 由 最 差 条 件 下 的 实验 导致 的 。 在 
图 9-1le 中 ，EC2 的 应 用 是 在 AWS 平台 上 测试 的 ， 测 试 平台 条 件 最 佳 : 高 效率 、 持 续 可 用 、 
高 度 安 全 的 数据 中 心 、 成 本 回报 高 。 因 此 ， 基 维 亚 特 图 的 阴影 部 分 非常 大 。 这 些 图 说 明了 用 5 
个 指标 Ca, B, Y, 8, u) 刻画 的 三 种 云 服 务 模式 的 相对 优势 和 不 足 。 572 
RIS 的 结果 是 三 种 云 服务 模式 在 最 好 和 最 坏 条 件 下 的 QoCS 估计 值 和 相对 排名 。 从 最 坏 条 
件 下 的 QoCS 值 可 以 看 出 ， 三 种 服务 模式 的 性 能 仅仅 是 最 大 性 能 的 30% 。 正 如 图 9-11b 和 9-1le 
所 示 ， 与 PaaS 和 SaaS 模式 的 性 能 相 比 ，laaS 的 QoCS 最 小 ， 这 是 因为 假设 了 受 限 的 扩展 性 和 较 
低 的 成 本 效益 。PaaS 和 SaaS 模式 的 性 能 接近 ， 但 PaaS 模式 更 安全 和 高 效 ， 而 SaaS 成 本 效益 
更 高 。 
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效率 (a) 


1 
成 本 (u) aks 可 扩展 性 (2) 


VS 
安全 性 (5) a AY FATE Cy) 


a) 5 个 指标 的 基 维 亚 特 图 (模板 ) 





c) 在 非常 好 的 运行 条 件 下 的 PaaS d) 在 高 可 用 性 的 不 良 运行 环境 下 的 laaS 
图 9-11 刻画 QoCS 的 5 个 指标 的 基 维 亚 特 图 ，3 种 云 服 务 模式 在 三 种 假设 条 件 下 运行 
注 ; 由 K. Hwang # S. Kulkarni 提供 ，USC 2009, 


表 9-5 在 两 种 安全 和 可 用 性 极端 条 件 下 ， 三 种 计算 云 服务 模式 的 相对 性 能 


最 坏 情况 下 的 排名 | 云 服 务 的 QoCS 6， 最 好 情况 
3 59. 7055% 


54. 4187% 
52. 1941% 











云 服务 的 QoCS 6， 最 坏 情 况 
















19. 3661% 
25. 5026% 
22. 2344 % 
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在 最 好 情况 下 ， 三 种 去 服务 模 式 的 QoCS 在 50% ~ 60% 之 间 。IaaS 性 能 优 于 PaaS 和 SaaS, 
这 主要 是 因为 效率 、 可 扩展 性 和 安全 指标 的 提升 。PaaS 和 SaaS 模式 的 性 能 类 似 ， 但 PaaS 比 SaaS 
模式 的 性 能 更 高 。 这 是 因为 PaaS 的 提供 商会 大 幅 提升 效率 和 可 扩展 性 。JaaS、PaaS 和 SaaS 模式 
的 排名 随 特定 的 应 用 而 变化 ， 我 们 需要 基准 实验 来 对 云 性 能 排序 。 a 
9.2.5 MPI, Azure, EC2, MapReduce, Hadoop 的 基准 测试 

文献 [23 ~ 29) 4E HPC 应 用 上 对 云 系统 进行 了 基准 测试 。 有 些 实验 是 使 用 不 适宜 云 的 消息 传 
递 接 口 〈MPI) 技术 来 运行 的 ， 而 不 是 使 用 如 第 6 章 讨 论 的 MapReduce。 正 如 6.2.6 节 讨 论 的 一 
PE, 另外 一 些 研 究 [15，30 ~38] 关 注 于 科学 问题 的 测试 ， 这 些 应 用 适用 于 云 平台 。6.2.2 节 已 经 
讨论 了 Twister 的 性 能 结果 ， 这 里 不 再 缆 述 。 

9.2.5.1 竞争 的 云 性 能 

云 为 适用 于 云 环 境 的 应 用 和 编程 模式 提供 相互 竞争 的 性 能 和 价格 。 在 这 种 情况 下 ， 用 户 受 
益 于 云 的 效用 计算 特征 。 而 对 于 PaaS, ALP Stat FAS Azure Table/ WV 4H SimpleDB 等 平台 特 
征 。 这 些 都 是 传统 HPC 集群 系统 所 不 能 提供 的 。 云 计算 性 能 受 如 下 因素 的 影响 : 向 它们 传输 数 
据 所 需 的 带宽 和 成 本 ; 影响 MPI 延迟 和 带宽 的 VO 性 能 下 降 ; 虚拟 化 带 来 的 不 良 后 果 ， 如 影响 
了 计算 和 存储 的 邻近 及 不 同 计算 实例 的 邻近 "” 。 传 统 的 大 规模 模拟 通常 需要 低 延 迟 、 高 带宽 通 
信和 先进 的 数据 分 解 机 制 ， 这 些 模拟 应 用 在 云 平 台 上 通常 性 能 不 高 。 

文献 [41] 在 亚马逊 EC2 上 评估 了 多 种 实现 机 制 的 开销 。 结 果 显 示 计 算 成 本 高 于 存储 ， 但 需 
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要 注意 成 本 和 所 使 用 的 亚马逊 实例 类 型 密切 相关 的 〈 表 6-13) 。 很 多 研究 都 发 现 了 这 种 密切 相关 
性 ， 所 以 在 任何 的 云 操作 中 首先 需要 优化 所 使 用 的 实例 类 型 。 文 献 [42 ] 关注 亚马逊 EC2 对 天 文 
学 应 用 邻近 “超新星 工厂 ”(Nearby Supernova Factory, ，SNfactory ) 分 析 环 境 的 支持 。 该 
环境 依赖 于 一 系列 进程 的 复杂 流水 线 ， 这 些 进程 对 约 10TB 数据 的 图 像 进行 并 行 处 理 。 这 篇 文章 
的 研究 结果 显示 ， 为 了 在 EC2 上 高 效 地 使 用 存储 ， 用 户 需要 完成 很 多 工作 。 此 外 ， 传 统 Linux 集 
群 应 用 需要 修改 ， 才 能 处 理 云 平台 中 的 失效 。 需 要 说 明 的 是 ， 云 优化 的 环境 (如 MapReduce) A 
AAR A BRET. 

9.2.5.2 MPI 和 MapReduce 性 能 比较 

印第安 纳 大 学 的 SALSA 研究 组 使 用 Linux 和 Windows 在 云 平台 和 传统 平台 上 进行 了 一 系列 性 
能 评估 实验 ， 以 比较 MPI、Mapreduce 和 主 从 工作 (master-worker) RHEES, BA 
可 参考 该 研究 组 的 相关 论文 。 在 不 同 规模 的 EC2 上 ， 运 行 生 成 拓扑 映射 (Generative Topographic [574 
Mapping, GTM) 插值 算法 ， 以 降 维 来 分 析 散 落 于 166 维 空间 上 2 640 万 数据 点 构成 的 NIH 
Pubchem 数据 集 。Azure 测试 结果 随 实例 数目 的 变化 如 图 9-12 所 示 。 
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Xx EC2HM4XL @-@ Hadoop 
tet EC2 large v9 DryadLINQ 
1 









0.0 ~ _ 
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核 的 数目 
图 9-12 云 性 能 随 虚 拟 核 数目 的 变化 趋势 "1 


EC2 的 测试 分 别 在 EC2 的 Large、HCXL (High-CPU-Extra-Large) 、HM4XL ( High-Memory- 
Quadruple-Extra-Large) 实例 上 运行 。 在 HM4XL 和 HCXL 中 ， 每 个 实例 使 用 8 个 核 ， 而 每 个 
“large” 实 例 使 用 2 个 核 。MapReduce 实现 的 效率 处 在 中 间 人 位置， 其 低 效率 是 由 节点 上 内 存 带 宽 
的 影响 造成 的 。 这 种 低 效率 在 16 核 系统 上 的 DryadLINQ 更 明显 ， 而 Hadoop 系统 在 每 个 节点 上 有 
8 个 核 。 这 个 例子 说 明 云 实例 的 选择 会 影响 性 能 的 可 扩展 。 

9.2.5.3 云 平 台 和 襟 机 上 的 MapReduce 

最 后 ， 我 们 来 看 SWG 上 MapReduce'! 的 4 种 实现 的 性 能 (如 图 9-13 R). SWG 已 经 在 前 
面 介绍 ， 我 们 比较 Azure 上 的 MapReduce 与 裸 机 上 的 Hadoop ， 以 及 其 他 两 种 亚马逊 实现 的 性 能 。 
这 两 种 实现 是 “官方 ”弹性 MapReduce 和 实现 王 亚 马 逊 实例 上 的 Hadoop。 最 大 的 影响 是 C# 实 现 
HE Java 距离 计算 要 慢 。 这 可 以 通过 分 配 单个 计算 性 能 消除 。 

可 以 看 出 ， 亚 马 逊 EC2 比 中 等 规模 的 Linux 集群 系统 烛 6 倍 ， 比 现代 HPC 系统 慢 20 倍 。 
EC2 云 平台 上 的 硬件 、 软 件 和 互联 限制 了 其 原始 速度 。 云 平台 在 商业 应 用 中 非常 成 功 。 在 科研 领 
域 ， 数 据 密集 型 问题 也 已 经 在 云 平台 上 获得 了 巨大 的 成 功 。 这 是 因为 : 首先 ， 这 些 问 题 具 有 紧 耦 
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合 结 构 ， 这 些 结构 可 以 在 云 平台 中 得 到 很 好 的 支持 ; 其 次 ， 这 些 问题 通常 是 “新 应 用 ”， 有 利于 
一 开始 就 使 用 适用 于 云 的 编程 模型 。 


4500 
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00 -器 - 亚马逊 EMR 
10 | fe EC2 上 的 Hadoop || 
500 >< 裸 机 上 的 Hadoop 
0 
64 x 1024 96 x 1536 128 x 2048 160 x 2560 192 x 3072 
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图 9-13 4 种 云 平 台 上 的 MapReduce 性 能 比较 : Azure MR, 12%) EMR, 
EC2 上 的 Hadoop 和 裸 机 上 的 Hadoop"? 767-1 


9.3 物 联网 关键 技术 


在 普 适 计算 中 ， 物 联网 提供 了 一 个 由 传感器 或 者 无 线 电 连 接 设备 组 成 的 网 络 ， 这 些 传感器 
或 者 设备 在 信息 物理 空间 可 被 唯一 标识 和 定位 。 它 是 由 无 线 连接 的 自 配 置 网 络 ， 包 括 无 线 射频 
标签 、 低 成 本 传感器 网 络 或 者 电子 标识 。 物 联网 的 概念 源 于 1999 年 的 自动 ID 追踪 ,结合 了 
RFID 技术 和 基于 IPv6 的 互联 网 技术 。 每 个 物体 都 被 赋 于 唯一 可 定位 的 IP 地址。 借助 RFID, 
WiFi 、ZigBee 、 移 动 网 络 或 者 CPS，IP 标识 的 物体 是 可 读 的 、 可 被 辨识 的 、 可 定位 、 可 寻 址 和 可 
通过 互联 网 控制 的 。 本 节 介绍 物 联网 实现 物体 标签 、 无 线 感知 和 位 置 定位 的 技术 。 物 联网 应 用 将 
在 9.4 节 介绍 。 
9.3.1 实现 普 适 计算 的 物 联 网 

正如 第 1 章 所 介绍 的 ， 物 联网 是 互联 网 的 自然 延伸 ， 其 基础 是 RFID. 。 借 助 RFID, ， 通 过 检查 
IP 地 址 或 者 搜索 数据 库 ， 我 们 找到 或 跟踪 被 标签 的 物体 和 移动 设备 。 虽 然 RFID 仅仅 是 普 适 计算 
的 一 种 变形 ， 但 是 物 联网 却 代 表 了 未 来 的 愿景 。19 世纪 的 计算 机 根据 指令 来 工作 ，20 世纪 的 计 

算 机 会 思考 ， 而 21 世纪 的 计算 机 试图 通过 传 感 和 理解 来 感知 。 

物体 并 不 仅仅 包括 电子 设备 ， 还 包括 诸如 人 和 人 类、 动物、 食物、 衣物 、 房 屋 、 汽 车 、 日 用 品 、 
树 、 山 以 及 地 标 等 。 物 联网 系统 可 以 极 大 减 小 一 家 公司 存货 不 够 或 者 货物 浪费 的 概率 ， 这 是 因为 
我 们 可 以 精确 了 解 商品 的 需求 情况 。 由 于 物品 是 可 被 定位 的 ， 所 以 遗失 或 者 被 偷窃 的 东西 也 可 
以 方便 地 找到 。 上 述 场景 要 求 所 有 物体 ， 从 牛奶 箱 到 卡车 集 装 容 器 再 到 大 规模 喷气 式 客机 ， 配 有 
射频 标识 。 计 算 机 就 像 人 类 所 做 的 一 样 ， 识 别 和 管理 被 标识 的 物体 。 物 联网 系统 将 提高 人 们 的 生 
活 质量 ， 使 得 社会 变 得 更 加 干净 、 安 全 、 方 便 和 快乐 。 

9.3.1.1 普 适 计算 

普 适 计算 是 人 机 交互 的 后 桌面 模式 ， 信 息 的 处 理 融 入 到 日 常 物体 和 活动 中 。 在 日 常生 活 中 ， 
人 们 会 同时 使 用 多 个 普 适 设备 ， 但 并 不 一 定 知道 这 些 交互 设备 的 存在 。 这 种 思想 虽然 简单 ， 但 实 
现 很 难 。 如 果 世 界 上 所 有 物体 都 装备 有 很 小 的 识别 系统 ， 那 么 我 们 的 日 常生 活 将 会 发 生 一 次 重 
大 变革 。 

物 联网 系统 必须 有 系统 设计 、 系 统 工程 和 用 户 接口 。 命 令 行 、 菜 单 驱动 或 者 基于 GUI 的 现 
代 人 机 交互 模式 都 无 法 满足 普 适 计算 的 需求 。 适 用 于 普 适 计算 的 物 联网 模式 已 经 显现 ， 能 够 支 
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持 普 适 计算 的 设备 有 智能 手机 、 平 板 电脑 、 传 感 器 网 络 、RKID 标识 、 智 能 卡 、GPS 设备 等 。 
9.3.1.2 物 联 网 的 发 展 
2005 年 ， 物 联网 的 概念 开始 受到 大 家 的 关注 ， 它 以 一 种 感知 的 方式 互联 各 种 物体 。 其 具体 
方法 是 通过 RFID 标识 物体 ， 通 过 传 感 网 和 无 线 网 感知 物体 ， 并 通过 建立 与 人 类 活动 交互 的 授信 
式 系统 来 思考 。 物 联网 发 展 路 线 图 如 图 9-14 所 示 。 该 图 预测 了 25 年 内 实现 物 联网 所 需 的 技术 。 
2002 年 ， 美 国 国家 自然 基金 (National Science Foundation, NSF) 发 出 了 关于 普 适 计算 和 纳米 技 
术 融 合 的 申请 指南 。 
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图 9-14 物 联网 技术 发 展 图 
注 ; 摘自 SRI Consulting Business Intelligence, 

2008 年 4 月， 美国 国家 情报 委员 会 发 布 了 题 为 “颠覆 性 民用 技术 ”的 报告 ， 该 报告 也 把 物 
联网 列 为 美国 2025 年 前 的 核心 技术 之 一 。 就 量化 指标 来 说 ， 物 联网 必须 对 50 万 亿 到 100 万 亿 的 
物体 进行 编码 ， 而 且 需 要 跟踪 这 些 物 体 的 移动 情况 。 如 果 世 界 人 口 按 照 60 亿 算 ， 每 个 人 在 日 常 
生活 中 周围 平均 有 几 千 个 物体 。 

9.3.1.3 关键 技术 和 增 效 技术 

目前 ， 我 们 有 很 多 可 以 应 用 到 物 联网 基础 设施 和 物 联网 系统 建设 的 技术 。 这 些 技术 可 以 分 
为 两 类 : 第 一 类 是 构建 物 联 网 基础 的 关键 技术 ， 核心 包括 跟踪 (RFID) 、 传 感 器 网 络 和 GPS。 这 
些 技术 将 在 图 9-19 中 介绍 。 第 二 类 是 如 表 9-6 所 示 的 增 效 技术 ， 起 支持 作用 。 例 如 ， 生 物 统计 
学 本 以 广泛 应 用 于 个 性 化 人 、 机 器 和 物体 之 间 的 交互 ， 而 人 工 智能 、 计 算 机 视觉 、 机 器 人 和 远程 
呈现 可 以 使 未 来 生活 更 加 自动 化 。 


表 9-6 物 联网 关键 技术 和 增 效 技术 





























关键 技术 增 效 技术 关键 技术 增 效 技术 

机 器 到 机 器 接口 地 理 标识 /地 理 缓存 能 量 收集 技术 远程 旦 现 

电子 通信 协议 十 生物 统计 学 | 传感器 和 传感器 网 络 生命 记录 仪 和 个 人 黑 盒子 
微 控制 器 | 机 器 视觉 制动器 | TEREPEN 
无 线 通 信 | ”机 器 人 学 | 定位 技术 (GPS) | 清洁 技术 

RFID 增强 现实 软件 工程 镜像 世界 
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展 和 关键 应 用 。 例 如 ， 目 前 对 供应 链 的 支持 比 以 前 更 好 ， 垂 直 市 场 应 用 可 能 代表 了 下 一 轮 的 发 
展 ， 普 适 定位 预计 在 2020 年 左右 可 用 。 这 些 技术 的 发 展 将 极 大 提高 人 类 的 能 力 、 社 会 产 出 、 国 
家 生产 力 和 生活 质量 。 

9.3.1.4 物 联 网 体系 结构 

物 联网 系统 更 像 是 一 个 事件 驱动 的 体系 结构 。 如 图 9-15 所 示 ， 它 是 一 个 三 层 体 系 结构 ， 项 
层 是 由 应 用 驱动 形成 的 。 物 联网 应 用 空间 很 大 ， 相 关 应 用 将 在 9. 4. 1 节 讨 论 。 底 层 是 各 种 类 型 的 
传 感 设 备 ， 有 REID 标签 、ZigBee 或 者 其 他 类 型 的 传感器 ， 以 及 GPS 道路 映射 导航 仪 。 传 感 设备 
fH) RFID 网 络 、 传 感 器 网 络 和 GPS 的 本 地 或 者 全 局 网 络 实现 互联 。 这 些 传 感 设备 收集 到 的 信和 号 
和 信息 通过 中 间 云 计算 平台 提交 给 应 用 。 

6 交通 | TA 


H 在 未 来 15 年 ， 物 联网 将 发 展 得 更 加 成 熟 和 先进 。 图 9-14 总 结 了 受益 于 物 联网 的 主要 技术 发 
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图 9-15 ” 物 联 网 体系 结构 ， 传 感 设备 通过 移动 网 络 、 互 联网 和 处 理 云 连接 到 各 种 应 用 中 


用 于 信号 处 理 的 云 构 建 于 移动 网 络 、 上 骨干 互联 网 和 各 种 信息 网 络 之 上 ， 处 在 体系 结构 的 中 
间 层 。 在 物 联网 中 ， 感 知事 件 的 含义 并 不 符合 一 种 确定 模型 或 语法 模型 ， 而 是 使 用 了 SOA 模型 。 
大 量 的 传感器 和 过 滤器 用 于 原始 数据 的 收集 ， 各 种 计算 和 存储 云 、 网 格 用 于 处 理 数据 ， 并 把 数据 
转化 为 信息 和 知识 格式 。 感 应 获得 的 信息 综合 形成 一 个 智能 应 用 的 决策 系统 。 中 间 层 也 可 以 看 

做 是 语义 网 或 语义 网 格 。 

9.3.2 ”射频 标识 (RFID) 

RFID 对 带 有 电子 标签 或 者 REID 标签 的 物体 进行 监测 和 跟踪 。 标 签 可 以 应 用 在 任意 物体 上 ， 
如 商品 、 工 具 、 智 能 电话 、 计 算 机 、 动 物 或 者 人 ， 目 的 是 通过 射频 波 或 者 感知 信号 识别 和 跟踪 物 
体 。 某 些 标签 可 以 从 数 十 或 者 数 百 米 以 外 被 无 线 读 取 器 所 读 取 。RFID 标识 至 少 包含 两 个 主要 部 
分 : 一 部 分 是 集成 电路 ， 用 来 存储 和 处 理 信息 ， 调 制 和 解 调 射频 信和 号 等 ; 另 一 部 分 是 接受 和 传输 
无 线 信 号 的 天 线 。 

9.3.2.1 RFID 标签 和 设备 组 件 

RFID 标签 大 致 上 可 以 分 为 三 类 。 第 一 类 是 主动 RFID 标签 ， 带 有 电池 来 供电 ， 并 自动 传输 信 
号 。 第 二 类 是 被 动 RFID 标签 ， 不 带电 池 ， 需 要 外 部 源 来 激发 信号 传输 。 第 三 类 是 电池 辅助 的 被 
动 RFID 标签 ， 需 要 外 部 源 来 唤醒 电池 ， 但 具有 更 高 的 传输 能 力 。 依 据 所 使 用 的 无 线 电 频 率 ， 被 动 
RFID 标签 分 为 低频 、 高 频 、 超 高 频 和 微波 几 种 类 型 。 从 功能 上 讲 ，RFID 硬件 有 三 个 主要 组 件 : 
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。 RFID 标签 : 附着 于 小 型 天 线 的 微型 芯片 。 

。 ERRE: 用 来 发 出 信号 并 捕获 从 标签 返回 的 信号 ， 可 以 集成 在 手持 读 取 设 备 ， 或 者 用 
线 与 读 取 器 连接 。 

。 ERNE: 和 标签 交互 的 设备 ， 可 能 支持 一 个 或 者 多 个 天 线 。 借 助 电 子 条 形 码 ， 读 取 器 可 
以 在 没有 视线 的 情况 下 监测 到 信和 号。 

有 些 RFID 读 取 器 能 同时 识别 多 个 物体 ， 而 有 些 RFID 标签 读 取 器 体系 结构 支持 某 些 安全 特 
性 ， 如 在 对 某 个 标识 解码 前 要 求人 工 输入 一 个 验证 码 。RFID 设备 有 不 同 的 大 小 、 电 源 要 求 、 操 
作 频 率 、 存 储 ( 可 重 写 和 不 易 挥发 ) 以 及 软件 智能 ， 可 在 数 厘 米 到 数 百 米 距 离 内 操作 。 大 规模 
的 设备 有 一 个 内 置 的 电源 ， 可 以 在 更 广 的 范围 操作 。 狭 义 上 讲 ， 小 型 设备 一 般 没有 内 置 电 源 。 

9.3.2.2 RFID 如 何 工作 

RFID 标签 分 为 主动 、 半 主动 和 被 动 RFID 标签 。 这 些 标签 可 以 最 大 存储 2KB 的 数据 ， 由 微 
芯片 、 天 线 及 用 于 主动 和 半 被 动 标签 的 电池 组 成 。 标 签 组 件 封装 在 塑料 、 硅 片 或 者 玻璃 内 。 存 储 
在 微 芯片 上 的 数据 等 待 被 阅读 ， 标 签 的 天 线 接受 来 自 RFID 读 取 器 天 线 的 电子 能 量 。 标 签 借助 其 
内 部 电池 的 电源 或 者 从 读 取 器 电子 域 获得 的 电源 ， 向 读 取 器 返回 射频 信号 。 读 取 器 收集 标签 的 
射频 信号 ， 并 把 信号 解析 为 有 意义 的 数据 。 

在 RFID 标签 中 有 两 种 耦合 机 制 : 电感 看 合 和 电容 耦合 。 图 9-16 给 出 了 在 REID 标签 (电子 
标识 ) 、 读 / 写 设 备 和 后 台 计 算 机 之 间 的 操作 流程 。 因 为 RFID 标签 昂贵 且 体 积 大 ， 目 前 没有 被 人 
们 普遍 使 用 ， 而 是 主要 用 于 大 的 企业 、 流 动 或 者 装运 公司 及 服务 公司 等 。RFID 标签 使 得 我 们 的 
日 常生 活 和 工作 更 加 简单 、 方 便 ， 使 得 我 们 可 以 访问 周围 可 见 和 不 可 见 的 物体 。 这 些 标签 量 产 
后 ， 价 格 将 会 降下 来 。 此 外 ， 标 签 的 体积 也 会 缩小 到 能 够 装 进 任意 产品 和 物体 。 
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WIFI 或 者 传感器 网 络 


图 9-16 RFID 标签 和 信和 号 通过 传感器 网 络 和 WiFi 网络 进行 读 / 写 


就 像 雷达 发 现 目标 一 样 ， 外 部 射频 天 线 设备 也 可 以 发 现 标签 设备 。 但 毫 无 疑问 ，RFID 在 小 
范围 内 操作 更 加 高 效 。 很 多 机 构 正 在 制定 RFID 使 用 的 标准 和 规范 ， 包括 国际 标准 组 织 
( International Organization for Standardization ，ISO)、 国 际 电 工 委员 会 (International Electrotechnical 
Commission, IEC), ASTM (American Society for Testing and Materials) 国际 、DASH7 联盟 和 EPCglobal。 
RFID 的 商业 应 用 也 很 广泛 ， 有 存货 跟踪 、 供 应 链 管理 ， 它 可 以 提高 存货 控制 的 效率 和 装配 线 管 
理 的 准确 性 。 主 动 和 半 被 动 RFID 标签 使 用 内 置 的 电池 来 为 其 电路 供电 。 主 动 标签 也 可 以 使 用 其 
电池 向 读 取 器 广播 射频 波 ， 而 半 被 动 标签 依赖 于 读 取 器 提供 广播 的 电源 。 

” ”如果 使 用 中 继 电 池 来 增强 标签 的 范围 ， 主 动 和 半 被 动 标签 的 读 取 范 围 可 以 达到 30 ~ 100 米 。 
例如 ， 一 个 客户 通过 商店 提供 的 无 线 电 扫 找 笔 ， 在 商店 的 货架 上 找到 了 一 条 合身 的 牛仔 裤 ， 她 可 
以 借助 手机 上 的 RFID 装置 来 订购 该 商品 。 被 动 RFID 标签 完全 依赖 于 读 取 器 提供 电源 ， 这 些 标 
签 最 多 可 以 在 20 英尺 距离 内 读 取 。 它 们 的 生产 成 本 低 ， 可 以 应 用 在 不 太 贵 的 商品 上 ， 用 完 即 可 
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丢弃 。 铁 道 车 辆 可 以 使 用 主动 RD 标签 ， 而 一 瓶 洗 发 液 使 用 被 动 标签 就 足够 了 。 

另 一 个 影响 RD 标签 成 本 的 因素 是 数据 存储 。 目 前 主要 有 三 种 类 型 的 存储 ; KS. RRA 
一 次 写 多 次 读 (WORM)。 读 写 标签 的 数据 可 以 增加 或 重 写 ， 只 读 标签 不 能 被 重 写 或 者 增加 ， 
WORM 标签 仅 有 一 次 增加 数据 的 机 会 ， 但 不 能 被 重 写 。 大 部 分 被 动 RFID 标签 的 成 本 在 7 ~ 20 美 
分 。 主 动 和 半 被 动 标签 更 贵 ， 而 且 RID 制造 商 在 确定 它们 的 范围 、 存 储 类 型 和 质量 之 前 不 会 对 

[581] 这 些 标签 报价 。RFID 产业 界 的 目标 是 在 大 量 商品 使 用 被 动 RFID 标签 后 ， 把 它们 的 价格 降 到 每 

个 5 美 分 。 
9. 3.3 传感器 网 络 和 ZigBee 技术 

目前 传感器 网 络 大 部 分 是 无 线 的 ， 也 称 为 无 线 传感器 网 络 (Wireless Sensor Network, WSN). 
典型 的 WSN 由 空间 上 分 布 的 自动 传感器 协同 监测 物理 或 者 环境 条 件 ， 如 温度 、 声 音 、 振 动 、 压 
力 、 动 作 和 污染 物 。 无 线 传感器 网 络 的 发 展 最 早 是 由 军事 应 用 驱动 的 ， 如 战场 监视 等 ,但 它 目 前 
已 经 应 用 到 很 多 工业 和 民用 应 用 领域 ， 包 括 进度 监测 和 控制 、 机 器 健康 状态 监测 、 环境 和 栖息 地 
监测 、 卫 生 保 健 、 家 庭 自动 化 ， 以 及 智能 交通 控制 。 

9.3.3.1 无 线 传感器 网 络 

WSN 是 一 组 带 有 通信 基础 设施 的 特定 变频 器 ， 旨 在 实现 各 个 位 置 监测 和 记录 条 件 。 通 常 监 
测 的 参数 有 温度 、 湿 度 、 压 力 、 风 向 和 风速 、 光 照 强度 、 振 动 强度 、 声 音 强 度 、 电 线 电压 、 化 学 
浓度 、 污 染 水 平和 身体 功能 等 。 传 感 器 网 络 包 含 多 个 监测 站 点 ， 称 为 传感器 节点 。 传 感 器 节点 通 
常 很 小 、 很 轻 和 便携 ， 配 有 一 个 变频 器 、 微 型 计算 机 、 收 发 器 和 电源 。 变 频 器 根据 感知 到 的 数据 
产生 电子 信号 ， 微 型 计算 机 处 理 和 存储 传感器 输出 ， 而 收发 器 从 中 央 计 算 机 接受 命令 并 向 其 发 
送 数 据 ， 它 可 以 是 有 线 连接 或 者 无 线 的 。 

传感器 节点 的 电源 从 电子 设施 或 者 电池 获得 。 传 感 器 节点 最 大 有 鞋 盒 那么 大 ， 也 可 以 小 到 
灰尘 粒 那 么 小 。 传 感 器 节点 成 本 的 差异 也 很 大 ， 从 100 美元 到 几 个 便士 不 等 。 传 感 器 节点 的 大 小 
和 成 本 由 电源 、 内 存 、 计 算 速 度 和 节点 所 使 用 的 带宽 决定 。 

9.3.3.2 支持 普 适 计算 的 无 线 网 络 

表 9-7 比较 了 4 种 支持 普 适 计算 的 无 线 网 络 。ZigBee 网 络 主要 使 用 在 低 成 本 、 低 速 监测 和 控 
制 应 用 中 ， 如 无 线 家 庭 网 络 (Wireless Home Area Network ，WHAN)。GCSM/GPRS 或 者 CSMA/1 
网 络 是 蜂窝 移动 网 络 ， 覆 盖 很 广泛 的 区 域 ， 用 于 语 音 和 远程 数据 通信 。 WIFI 网 络 在 IEEE 
802. 11b 标准 中 详细 说 明 ， 用 于 无 线 访 问 互 联网 、 阅 读 电 子 邮 件 或 者 进行 网 页 搜索 等 。 蓝 牙 
(Bluetooth) 主要 用 于 短 距 离 计 算 机 外 设 的 无 线 连 接 ， 如 键盘 、 鼠 标 、 打 印 机 等 。 就 数据 传输 率 
iL, WiFi 是 最 快 的 (802. 11g 网 络 中 是 54Mbps) ， 其 次 是 720Kbps 的 蓝牙 和 2. 5G 的 GPRS 移动 
网 络 的 115Kbps， 最 慢 的 是 ZigBee， 在 20 ~250Kbps 之 间 。 但 是 ，ZigBee 具有 高 可 靠 性 和 低 耗 电 / 
成 本 的 优势 。 





表 9-7 支持 普 适 计算 的 无 线 网 络 














































































ZigBee GSM/GPRS WiFi 蓝牙 

市 场 名 /标准 g02 16. 4 CDMA/1XRTT 802. 11g 802. 15. 1 
应 用 领域 监测 和 控制 广 域 语音 和 数据 网 页 、 电 邮 和 视频 代替 连接 所 用 的 线 
系统 资源 4 ~32KB 1MB + 250KB + 
电池 寿命 (天 ) 100 ~ 1000 + 1~7 1~7 
网 络 规模 不 受 限 制 (2”) 1 32 
带宽 (Kbps) 20 ~ 250 64 ~128 + 54 000 + 720 
范围 ( 米 ) 1~100 + 1000 + 1~100 1~10+ 
优势 可 靠 、 节 能 和 成 本 可 达 和 质量 速度 和 灵活 性 成 本 、 方 便 性 
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传感器 网 络 是 自 组 织 的 。 由 于 传感器 网 络 包含 大 量 节 点 ， 而 且 它们 可 能 放置 在 恶劣 位 置 , 网 ， 


络 的 自 组 织 是 至 关 重 要 的 ， 手 动 配置 在 这 种 环境 下 是 不 现实 的 。 此 外 ， 节 点 可 能 失效 〈 由 于 缺 
电 或 者 由 于 物理 破坏 ) ， 而 新 的 节点 可 能 加 入 网 络 。 所 以 节点 必须 能 够 周期 性 自 配 置 ， 以 继续 工 
E., 个别 节点 也 许 会 和 网 络 中 其 他 节点 失去 连接 ， 但 我 们 必须 保持 一 个 较 高 的 连通 度 。 

在 传感器 网 络 中 ， 协 同 信 号 处 理 是 必须 的 。 为 了 提高 检测 /估计 的 性 能 ， 通常 需要 从 多 个 传 
感 节点 融合 数据 ， 这 就 要 求 数据 和 控制 消息 的 传输 。 对 于 区 域内 收集 的 信息 ， 用 户 可 能 想 要 查询 
一 个 节点 或 一 组 节点 。 依 赖 于 数据 融合 的 体 量 ， 在 网 络 之 间 传 输 大 量 的 数据 可 能 并 不 现实 。 为 了 
解决 这 个 问题 ， 可 以 让 一 些 汇 聚 节点 从 本 地 区 域 收 集 数 据 并 创建 消息 摘要 ， 而 把 查询 请 求 转 发 
给 距离 所 关注 区 域 较 近 的 汇聚 节点 。 

9.3.3.3 传感器 网 络 的 发 展 

表 9-8 把 过 去 30 年 无 线 传感器 网 络 的 发 展 划分 为 三 代 。 第 一 代 传 感 器 网 络 中 的 节点 主要 是 
车 载 或 者 空投 的 个 别传 感 器 ， 它 们 像 鞋 盒子 一 样 大 ， 重 达 数 千克 。 此 时 ， 网 络 拓 扑 是 星 形 或 者 点 
到 点 的 ， 用 大 电池 供电 ， 可 以 持续 几 个 小 时 到 几 天 。 在 第 二 代 传 感 器 网 络 中 ， 传 感 器 缩小 到 一 盒 
扑克 牌 大 小 ， 几 克 或 者 几 十 克 重 ，AA 电池 供电 ， 工 作 可 持续 几 天 或 者 几 个 星期 ， 而 传感器 网 络 
以 客户 端 / 服 务 器 或 者 P2P 模式 来 组 织 。 第 三 代 即 现在 的 传感器 仅 有 灰尘 粒 大 ， 重 量 可 以 忽略 ， 
在 嵌入 式 和 远程 应 用 中 以 P2P 模式 组 织 。 

无 线 自 组 织 传感器 网 络 由 大 量 (基本 上 是 固定 的 ) 传感器 组 成 。 除 了 在 海洋 表面 或 者 军用 
的 移动 、 无 人 操作 机 器 人 传感器 节点 外 ， 传 感 器 网 络 中 的 节点 大 部 分 是 固定 的 。 未 来 传感器 网 络 
将 可 能 包含 1 万 到 10 万 个 节点 ， 可 扩展 性 是 必须 考虑 的 性 能 指标 。 传 感 器 也 应 该 是 低能 耗 的 ， 
因为 在 大 量 应 用 中 传感器 节点 将 被 部 署 在 远程 区 域 。 在 这 种 情况 下 ， 节 点 的 寿命 取决 于 电池 的 
寿命 ， 所 以 需要 降低 能 耗 或 者 使 用 太阳 能 来 为 设备 供电 。 


表 9-8 三 代 无 线 传感器 网 络 


WSN 特征 第 一 代 (20 世纪 90 年 代 ) 第 二 代 (21 世纪 初 ) 第 三 代 (2010 年 后 ) 
Crossbow 科技 股份 有 限 公司 ， 














制造 商 定制 厂商 (如 对 TRSS) | Sensoria 集团 ，Ember 集团 | Dust 股份 有 限 公 司 等 
物理 大 小 大 鞋 盒 或 者 更 大 一 盒 扑 克 牌 到 鞋 盒 大 小 灰尘 颗粒 
重量 数 千克 数 克 忽略 不 计 















































节点 体系 结构 感知 、 处 理 和 通信 分 离 集成 感知 、 处 理 和 通信 集成 感知 、 处 理 和 通信 
拓扑 点 对 点 ， 星 形 客户 端 /服务 器 ，P2P P2P 

供电 方式 和 寿命 大 电池 ; 数 小 时 、 数 天 或 者 更 长 | AA 电池 ; 数 天 或 者 数 周 太阳 能 ; 数 月 到 数 年 
部 署 车 载 或 者 空投 的 单个 传感器 手 放置 RAK, RRA 


9.3.3.4 ZigBee 网 络 
ZigBee 一 词 来 源 于 蜜蜂 回 梨 时 的 行为 。ZigBee 网 络 是 一 种 高 级 通信 协议 ， 由 IEEE 802. 15.4 
标准 描述 。Zigbee 设备 体积 较 小 ， 是 低能 耗 和 基于 无 线 电 的 传感器 节点 。 例 如 在 无 线 家 庭 网 络 
中 ，ZigBee 设备 用 在 无 线 开关 和 受 短 距 离 无 线 电 控 制 的 家 用 电子 设备 中 。ZigBee 技术 比 蓝牙 或 者 
Wiki 技术 易 用 而 且 便宜 。 用 在 ZigBee 中 的 无 线 射 频 具有 低 数据 传输 率 、 长 电池 寿命 和 安全 网 络 
等 特点 。 低 成 本 使 得 该 技术 可 以 广泛 应 用 于 无 线 控制 和 检测 应 用 中 ， 而 低 耗 电 特 征 使 得 使 用 小 
电池 就 可 以 达到 长 寿命 。 网 状 网 络 可 以 提高 可 用 性 并 延伸 操作 范围 。 这 里 列 出 了 三 种 不 同类 型 
的 ZigBee 设备 ， 9-17 也 给 出 了 相应 的 示意 图 。 
e ZigBee 协调 器 (ZC): 最 强 的 ZigBee 设备 ， 作 为 ZigBee 网 络 的 协调 器 或 者 根 。 在 每 个 网 
络 中 仅 有 一 个 协调 器 ， 它 是 开启 这 个 网 络 的 设备 〈 即 第 一 个 设备 ) ， 能 够 存储 网 络 的 信 
息 ， 而 且 作为 信任 中 心 存储 安全 密 钥 。 . 
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ZigBee 协调 需 


ZigBee 路 由 器 x on 
ri Zig Bent iif s s 
图 9-17 一 个 典型 的 ZigBee 网 络 结构 

注 : 摘自 http://mesh - matrix. com/en/technology/tech_zigbee. aspx。 

e ZigBee 路 由 器 (ZR): 中 间 路 由 器 ， 在 终端 设备 之 间 传 递 数据 。 

o ZigBee 终端 设备 (ZED): 仪 包含 和 父 节 点 (协调 器 或 者 路 由 器 ) 通信 的 功能 ， 不 能 中 

继 其 他 设备 的 数据 。 因 此 ， 节 点 可 以 休眠 很 长 一 段 时 间 ， 保 证 了 电池 的 长 寿命 。ZFED 设 
备 需 要 最 小 的 内 存 ， 比 ZR 或 者 ZC 的 制造 费用 更 低 。 

ZigBee 设备 需 符合 IEEE 802. 15.4 无 线 个 人 区 域 网 络 ( Wireless Personal Area Network, 
WPAN) 标准 。 该 标准 规定 了 低 协 议 层 一 一 物理 层 和 数据 链 路 层 MAC， 它 在 未 经 许可 的 几 个 频段 
THE: 2.4GHz (全 球 ) 、915MHz (美国 ) 、868MHz (欧洲 ) 。 在 2. 4CHz 频段 中 ， 有 16 个 ZigBee 
频道 ， 每 个 频道 需要 SMH 的 带宽 。 一 个 典型 的 ZigBee 网 络 如 图 9-17 所 示 。 无 线 电 发 射 设备 使 
用 直接 顺序 扩 频 编码 ， 由 数字 流 管理 到 调制 器 。 

不 同 频段 的 ZigBee 数据 传输 速率 不 同 ， 在 2.4GHz 频段 传输 率 是 230Kbps， 在 915MHz 频段 
是 40Kbps， 而 在 868MHz 频段 是 20Kbps， 传 输 范 围 在 10 ~75m, 无 线 电 输 出 功率 大 概 在 lmW。 
最 基本 的 频道 访问 模式 是 载波 侦 听 多 路 访问 (CSMA/CA), ， 即 传感器 节点 就 像 人 之 间 的 说 话 方式 
一 样 通信 ， 在 它们 开始 访问 前 首先 确保 当前 没有 人 在 通信 。 隐 藏 终端 问题 可 以 使 用 一 对 RTS 
(request to send, RÆ) 和 CTS (clear to send， 清 除 发 送 ) 握手 信号 来 解决 。 

9.3.3.5 无 线 传感器 网 络 用 电 管理 

在 大 多 数 无 线 传 感 器 网 络 中 ， 传 感 器 在 大 部 分 时 间 里 处 于 休 眼 状态 。 如 图 9-18 所 示 ， 休 眼 
传感器 仅 消 耗 几 微 安 的 电量 。 传 感 器 快速 唤醒 以 
处 理 感知 数据 ， 并 再 次 返回 休眠 状态 。 传 感 器 处 Aa 
于 主动 模式 的 时 间 非 常 短 ， 以 减 小 电量 消耗 。 这 oe 
种 周期 性 应 用 模式 使 得 在 不 换 电 池 的 情况 下 ， 传 
感 器 节点 寿命 可 以 达到 数 月 或 者 数 年 之 长 。 用 电 
管理 对 无 线 传 感 器 网 络 来 说 是 至 关 重 要 的 。 

例 9.7 用 于 健康 监测 的 无 线 传感器 a 

无 线 传感器 为 我 们 监测 人 体 不 同 的 参数 提供 5 
了 可 能 。 这 些 监测 大 部 分 都 很 简单 和 和 舒服， 无 需 {ki 
约束 和 打扰 人 们 的 日 常生 活 。 有 些 普 适 城 市 正在 
实现 这 样 的 无 线 监 测 系统 。 世 界 上 的 很 多 国家 在 时 间 
研究 UWB ( 超 宽带 ) 和 ZigBee 解决 方案 ， 以 使 它 图 9-18 ”一 个 典型 传感器 应 用 模式 中 的 用 电 管理 
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们 在 医院 和 康复 环境 中 变 得 更 加 普遍 〈 见 图 9-19)。 









医院 或 者 医疗 
中 心服 务 器 PC 





IEEE 802.15.4/Zigbee 
兼容 通信 





病人 的 移动 电话 
医生 的 移动 电话 


图 9-19 说明 测量 数据 是 如 何 通 过 无 线 传感器 网 络 传 给 医生 或 者 医疗 专家 的 例子 


32: 摘自 www. infotech. oulu. fi/Annual/2007/pics/opme_19_sm. jpg. 


尽管 有 大 量 的 商业 传感器 可 供 选 择 ， 但 是 在 应 用 传感器 前 需要 考虑 很 多 因素 ， 比 如 相位 仿 
差 和 噪声 等 。 在 应 用 之 前 ,我 们 需要 对 所 有 将 被 用 到 的 传感器 进行 大 量 的 测量 和 测试 ， 以 确保 结 
deel E R A 此 外 ， 我 们 也 需要 新 的 方法 ， 以 融合 和 分 析 从 不 
同 传感器 来 的 大 量 数据 。 最 后 在 无 线 健康 监测 系统 中 ， 实 现 一 个 无 创 葡 葡 糖 检测 单元 是 目前 正 
在 被 广泛 研究 的 课题 之 一 。 m [586] 
9.3.4 全球 定位 系统 (GPS) 

基于 位 置 的 服务 (Location-Based Service, LBS) 帮助 人 们 和 机 器 定位 物体 的 位 置 。 传 感 器 在 
航 位 推测 中 有 一 定 的 作用 ,但 是 该 方法 并 不 能 满足 地 理 定位 的 实际 需求 ， 因 此 就 有 了 全 球 定位 
和 导航 系统 的 出 现 。GPS 是 由 美国 空军 在 1973 年 研发 出 来 的 ， 欧 盟 、 俄 罗斯 和 中 国 也 有 类 似 的 
部 署 。GPS 通常 由 发 射 塔 协助 ， 固 定 信和 号 发 生 器 或 者 轨道 卫星 发 射 器 广播 时 间 信 和 号， 并 接受 响 
应 ， 以 定位 移动 物体 的 位 置 。 

雷达 、 激 光 雷 达 和 声 纳 定位 仪 使 用 电磁 信号 、 光 信号 和 声音 信号 来 定位 物体 的 相对 位 置 。 借 
助 卫 星 ， 某 些 物体 也 可 以 借助 附着 的 主动 GPS 设备 ， 通 过 无 线 电 、 光 或 者 声音 来 确定 它们 的 位 
置 。 从 1994 年 起 ， 一 种 经 过 降级 处 理 的 GPS 在 民事 应 用 中 开始 使 用 ， 提 供 可 靠 的 定位 、 导 航 和 
时 间 服 务 。 借 助 GPS 接收 器 ， 在 任何 天 气 条 件 下 、 无 论 白天 还 是 晚上 上、 世界 上 的 任何 地 方 ， 系 
统 为 大 量 用 户 提供 准确 的 定位 和 时 间 服 务 。 

9. 3.4.1 GPS 工作 原理 . 

GPS 由 空间 、 控 制 和 用 户 三 部 分 组 成 : 空间 部 分 、 控 制 部 分 和 用 户 部 分 。 美 国 空军 研发 、 维 
护 ， 以 及 运 维 空间 和 控制 部 分 。24 颗 卫 星 运行 在 绕 地 固定 轨道 上 ， 轨 道 的 高 度 约 为 20 200km。 
GPS 卫星 广播 信号 ， 借 助 这 些 信 号 CPS 接收 器 计算 它 的 3D 位 置 (AB. EMRE) 以 及 现 
在 的 时 间 。GPS 的 空间 部 分 包括 中 距离 轨道 上 的 24 颗 卫 星 和 把 这 些 卫 星 送 到 轨道 上 的 推动 器 。 
GPS 卫星 在 非常 精确 的 轨道 上 每 天 围绕 地 球 运 行 两 图 ， 并 向 地 球 传输 信号 。 地 面 上 的 GPS 设备 
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接受 信号 ， 并 使 用 三 角 方 法 计算 精确 位 置 。 在 不 同 的 时 间 ， 接 收 器 可 以 和 不 同 的 卫星 联系 。 

正如 图 9-20 所 示 ， 控 制 部 分 包括 一 个 主 控 台 、 大 量 专用 或 共享 的 地 面 天 线 以 及 监测 站 。 用 
户 部 分 包括 成 千 上 万 的 美军 和 盟 军用 户 ，GPS 为 他 们 提供 安全 GPS 精确 定位 服务 。 更 多 的 民用 、 
商用 和 科学 应 用 的 用 户 仅仅 允许 使 用 一 些 标准 定位 服务 ， 而 且 不 能 用 于 敌对 攻击 目的 。GCPS 接收 
器 比较 卫星 发 出 信号 的 时 间 和 它 接收 到 信和 号 的 时 间 ， 根 据 时 间 差 就 可 以 得 到 卫星 的 距离 。 根 据 
与 多 个 卫星 的 测 距 ， 接 收 器 就 可 以 确定 用 户 的 位 置 ， 并 在 电子 地 图 上 显示 。 
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图 9-20 ”地面 GPS 接收 器 借助 4 个 或 者 更 多 的 卫星 来 计算 其 3D 位 置 ， 一 
些 地 面 参 考 站 和 主 控 台 也 提供 了 必要 的 帮助 

9.3.4.2 主动 和 被 动 GPS 比较 

GPS 跟踪 设备 可 以 在 地 球 上 跟踪 人 、 汽 车 和 其 他 物体 。GPS 跟踪 系统 分 为 两 类 : 主动 跟踪 系 
统 和 被 动 跟踪 系统 。 在 被 动 跟踪 中 ，GPS 仅仅 是 一 个 接收 器 ， 不 作为 发 射 器 发 射 信号 。 被 动 GPS 
跟踪 设备 不 具备 发 送 CPS 数据 的 能 力 ， 主 要 是 作为 记录 设备 使 用 ， 也 称 为 数据 记录 器 。 主 动 GPS 
跟踪 设备 集成 了 一 种 发 送信 息 的 方法 。 尽 管 我 们 可 以 使 用 卫星 上 行 链 路 来 上 传 数据 ， 但 最 常用 
和 性 价 比 最 高 的 还 是 移动 数据 通信 。 自 动 增 量 式 更 新 方式 在 记录 周期 内 连续 记录 ， 同 时 提供 了 
当前 和 历史 位 置信 息 。 

被 动 GPS 跟踪 设备 在 内 部 存储 设备 中 存储 GPS 位 置信 息 ， 该 信息 随后 可 以 被 下 载 到 计算 机 
查看 。 主 动 CPS 跟踪 系统 则 以 固定 的 间隔 发 送 数据 ， 支 持 实时 查看 。 当 不 需要 实时 数据 时 ， 被 
动 GPS 跟踪 设备 由 于 其 方便 性 和 可 购 性 而 更 受 客户 的 欢迎 。 被 动 CPS 应 用 非常 广泛 。 家 长 可 以 
在 孩子 的 车 上 安装 一 个 GPS 跟踪 设备 ， 以 监视 他 们 的 驾驶 习惯 ， 并 了 解 他 们 去 了 哪些 地 方 。 执 . 
法 人 员 现 在 依赖 于 被 动 GPS 跟踪 技术 来 跟踪 犯罪 嫌疑 人 ， 并 通过 电子 监视 假释 犯 来 加 强 民 众 的 
安全 。 被 动 GPS 跟踪 设备 也 可 以 用 来 防范 偷盗 ， 协 助 寻 找 车 辆 。 

9.3.4.3 GPS 操作 原理 

接收 器 如 果 能 获得 一 颗 固 定位 置 卫星 的 信号 ， 则 意味 着 它 位 于 以 卫星 为 中 心 的 球形 表面 。 
接收 器 的 位 置 由 4 个 球形 表面 的 交集 来 确定 。 两 个 球形 的 交集 通常 是 一 个 环 。 如 果 两 个 球形 表面 
是 相 切 的 ， 那 么 环 变 为 一 个 点 。 在 确定 了 两 个 相交 球形 表面 后 ， 我 们 来 考虑 相交 形成 的 环 和 第 三 
个 卫星 球形 如 何 相 交 。 一 个 圆 和 一 个 球 不 相交 或 者 相交 于 1 个 或 者 2 个 点 ， 因 此 位 于 地 球 表面 的 
接收 器 最 多 需要 从 两 个 点 选择 距离 它 最 近 的 点 作为 其 位 置 。 

显然 ， 这 种 三 角 测 量 方法 在 把 范围 缩小 到 一 个 点 时 会 带 来 一 些 错误 。 为 了 更 准确 地 定位 ， 接 
收 器 必须 使 用 第 4 颗 了 卫星。 第 4 颗 卫 星球 将 非常 接近 其 余 三 个 球形 相交 的 两 个 点 ， 最 终 的 接收 器 
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位 置 由 距离 第 4 颗 卫 星 最 近 的 点 确定 。 如 果 没 有 错误 ， 那 么 定位 到 了 精确 的 位 置 。 否 则 可 能 会 由 
于 错误 有 一 些 偏差 ， 比 如 和 精确 位 置 有 10 米 的 偏差 。 为 了 进一步 减 小 错误 ， 可 以 使 用 更 多 的 卫 
E, 但 这 同时 会 带 来 很 大 的 开销 。 

卫星 不 间断 地 发 送 消息 ， 消 息 包含 发 送 的 时 间 、 精 确 的 轨道 信息 、 系 统 总 体 健 康 情况 和 所 有 
GPS 卫星 的 大 概 轨 道 信息 。GPS 接收 器 通过 为 GPS 卫星 发 送信 号 打上 精确 的 时 间 蕉 来 计算 其 位 
置 。 为 了 计算 其 二 维 (2D) ME (经 度 和 纬度 ) 和 跟踪 移动 ， 接 收回 必须 锁定 至 少 3 颗 卫 星 
的 信号 。 借 助 4 个 或 者 更 多 的 卫星 ， 接 收 器 可 以 确定 用 户 的 三 维 (3D) 位 置 〈《 经 度 、 纬 度 和 
高 度 ) 。 

一 旦 确定 了 用 户 的 位 置 ，GPS 设备 就 可 以 计算 其 他 信息 ， 如 速度 、 方 位 、 轨 迹 、 移 动 距离 、 
到 目的 地 距离 、 日 落 和 日 出 时 间 等 。 接 收 器 根据 接收 到 的 消息 来 确定 每 个 消息 的 发 出 时 间 ， 并 计 
算 到 卫星 的 距离 。 这 些 距 离 信 息 和 卫星 位 置信 息 综 合 起 来 计算 接收 器 的 位 置 ， 并 可 能 在 地 图 显 
示 屏 上 显示 。 很 多 GPS 设备 还 显示 一 些 推测 信息 ， 如 从 位 置 的 改变 来 显示 方向 和 速度 。 

9.3.4.4 三 角 定位 计算 法 

三 角 定 位 计算 法 如 图 9-20 所 示 。 接 收 器 借助 从 4 颗 卫 星 接 收 到 的 消息 来 确定 卫星 的 位 置 和 消息 发 
送 时 间 。 我 们 用 x、y 和 z 表示 位 置 ， 则 消息 发 送 时 间 表 示 为 [x,, 7,, za, t,], HPi=1, 2, 3, 4 
用 来 表示 卫星 序号 。 在 得 到 消息 接收 时 间 6, 的 情况 下 ， 接 收 器 计算 消息 的 传输 时 间 为 i,, -to B 
消息 是 以 光速 。 来 传输 的 ， 传 输 距 离 di = (1,, -i,) xe, 

我 们 已 经 讨论 了 球形 表面 相交 问题 ， 现 在 来 看 在 有 错误 的 情况 下 的 计算 问题 。 用 5 来 表示 时 
钟 误差 或 者 偏差 。 即 接收 器 时 钟 偏差 量 。 接 收 器 有 4 个 未 知 量 ，GPS 接收 器 位 置 的 三 个 分 量 和 时 
钟 偏差 ， 即 [x，y，z，6]。 球 形 表面 的 公式 如 下 所 示 ， 其 中 i=1, 2,3, 4: 

(x =x)? + (y-y,)? + (z-z)? = (Lir, +b -t ]e)? (9-6) 

这 里 可 以 使 用 多 维 根 估算 方法 (如 Newton-Raphson 方法 ) EHE., ADEE k KRR 
求 出 近似 解 [x ，y”，z，6] ， 然 后 求解 从 上 述 二 次 方程 得 到 的 4 个 线性 方程 ， 得 到 第 
+1 次 迄 代 后 的 结果 。Newton-Raphson 方法 比 其 他 定位 方法 收敛 速度 更 快 。 时 钟 偏差 对 于 定位 偏 
差 的 计算 影响 很 大 ， 因 此 在 基于 卫星 的 导航 系统 中 ， 时 钟 同 步 对 于 最 小 化 定位 偏差 是 至 关 重 
要 的 。 

在 计算 接收 器 位 置 时 ， 三 颗 卫星 通常 足够 了 ， 因 为 空间 有 三 维 ， 并 且 地 球 表面 附近 的 位 置 
(RE) 已 假定 是 0。 但 即使 一 个 非常 小 的 时 钟 误差 ， 在 经 过 卫星 信号 光速 相 乘 后 ， 也 会 造成 很 
大 的 位 置 偏差 。 所 以 大 多 数 接收 器 使 用 4 颗 或 者 更 多 的 卫星 来 确定 接收 器 的 位 置 和 时 间 。 大 多 数 
GPS 应 用 隐藏 了 计算 所 得 时 间 ， 而 仅 使 用 位 置信 息 。 然 而 一 些 特定 的 GPS 应 用 会 使 用 时 间 信 息 
来 进行 交通 信和 号 计时 和 同步 手机 基站 等 。 

尽管 在 通常 情况 下 需要 4 颗 卫星 ， 但 如 果 某 一 维 的 变量 是 已 知 的 ， 接 收 器 可 以 仅 使 用 3 颗 卫 
性 来 确定 其 位 置 ， 例 如 船 或 飞机 的 高 度 是 已 知 的 。 当 少 于 4 颗 卫 星 可 用 时 ， 一 些 GPS 接收 器 可 
能 使 用 其 他 的 一 些 信息 或 者 假设 〈( 如 使 用 上 次 已 知 的 高 度 、 航 位 推测 、 惯 性 导航 或 者 从 车 载 计 
算 机 得 到 的 信息 ) ， 以 估算 不 太 准 确 的 位 置 。 

9.3.4.5 全 球 部 署 状况 

美国 部 署 的 GPS 已 经 向 很 多 国家 的 民用 应 用 开放 。 除 美国 的 GPS 外 ， 俄 罗斯 也 部 署 了 称 为 
GLONASS (全 球 定位 卫星 系统 ) 的 CPS， 完 全 用 于 军事 。 欧 盟 有 Galio 定位 系统 (EGNSS), & 
至 2011 年 ， 中 国 已 经 为 31 颗 卫 星 组 成 的 北斗 导航 系统 发 射 了 8 颗 卫 星 ， 整 个 北斗 系统 将 在 2020 
年 运营 。 

民用 GPS 有 很 多 ， 包 括 导航 、 测 量 、 绘 图 、 手 机 、 构 造 、 灾 难 救援 和 紧急 服务 、GPS 旅游 、 
地 理 防护 、 娱 乐 、 飞 机 跟踪 、 地 理 标签 等 。 军 用 的 GPS 应 用 包括 导航 、 目 标 跟 踪 、 导 弹指 引 、 


416 ”第 三 部 分 ”网 格 、P2P 和 未 来 互联 网 


搜寻 和 救援 、 侦 察 和 核 爆 炸 探 测 等 。 下 面 的 例子 介绍 了 一 种 民事 应 用 。 

例 9.8 借助 主动 GPS 设备 的 实时 汽车 跟踪 

主动 GPS 跟踪 系统 主要 用 于 工业 和 商业 领域 ， 并 很 快 成 为 一 些 期 望 监测 汽车 和 其 他 重型 设 
备 的 标准 。 实 时 GPS 跟踪 是 一 种 获取 实时 和 详细 信息 的 可 行 方法 ， 这 些 信 息 主 要 来 自 大 量 被 跟 
踪 车 辆 或 者 物体 。 一 个 例子 是 租车 公司 ， 它 们 为 大 量 客户 提供 汽车 。 实 时 汽车 跟踪 系统 提供 所 有 
驾驶 人 员 当 前 和 历史 道路 数据 ， 借 此 可 以 获得 收益 。 这 个 过 程 分 为 下 面 4 个 步骤 : 

1 车 里 的 GPS 接收 器 从 卫星 网 络 中 接收 信号 。 

2. 收集 到 的 卫星 数据 通过 移动 网 络 发 送 到 通信 中 心 。 

3. 控制 中 心 在 全 局 地 图 上 计算 位 置信 息 。 

4. 控制 中 心 向 各 个 单元 发 送 命令 ， 以 触发 警报 、 停 止 引擎 、 改 变 方 向 或 者 发 送 个 人 消息 等 。 国 


9.4 物 联网 创新 应 用 


本 节 介 绍 物 联 网 的 应 用 领域 ， 举 例 说 明了 物 联网 在 跟踪 、 零 售 、 供 应 链 管理 、 智 能 电网 和 智 
能 建筑 中 的 应 用 ， 最 后 介绍 欧洲 物 联 网 项 目 以 及 面向 通用 应 用 的 美国 信息 物理 系统 (Cyber- 
[590 | Physical System ，CPS ) 。 
9.4.1 物 联网 应 用 
表 9-9 总 结 了 物 联网 在 三 大 民用 领域 的 应 用 。 物 联网 虽然 有 很 多 军事 应 用 ， 但 这 超出 了 本 书 
的 范围 。 物 联网 的 使 用 旨 在 提升 工业 生产 力 和 经 济 增长 。 它 在 环境 保护 方面 也 有 很 大 的 作用 ， 包 
括 污 染 控 制 、 天 气 预 报 、 灾 难 避 免 和 恢复 等 。 而 就 社会 影响 来 说 ， 物 联网 可 以 使 我 们 的 生活 更 加 
便利 和 和 舒适。 政府 服务 、 法 律 实施 、 家 庭 和 健康 提升 是 物 联 网 带 来 的 主要 好 处 。 
表 9-9 物 联 网 的 一 些 应 用 领域 
应 用 领域 简要 介绍 H F 
公司 或 者 组 织 之 同 的 财务 或 者 商业 交 Piil. Huk, MÆ, H MEREEN 




















工业 和 经 济 增长 活动 
环境 和 自然 资源 保护 、 监 测 和 开发 自然 资源 的 活动 农业 各 帘 牧 业 、 回 收 业 、 环 境 管理 服务 、 能 源 管理 等 








面向 公民 和 和 社会 结构 的 政府 服务 ， 电 子 包 容 (老人 、 
BRA) 等 


社会 和 日 常生 活 社会 、 城 市 和 人 的 开发 和 包容 活动 








下 面 列 出 了 传感器 网 络 的 几 种 应 用 : 

。 军用 传感器 网 络 ; 检测 并 获得 尽 可 能 多 的 关于 敌人 移动 、 爆 炸 和 其 他 感 兴趣 的 信息 。 

。 用 于 检测 化 学 、 生 物 、 放 射 性 物质 、 核 、 爆 炸 攻 击 和 爆炸 材料 的 传感器 网 络 。 

© 用 于 检测 地 面 、 森 林 和 海洋 等 环境 变化 的 传感器 网 络 。 

。 无 线 交通 传感器 网 络 : 监测 高 速 公 路 或 者 城市 拥堵 区 域 的 交通 情况 。 

。 无 线 监 视 传 感 器 网 络 : 为 购物 中 心 、 停 车 场 和 其 他 场所 提供 安全 。 

。 无 线 停车 位 监测 传感器 网 络 : 确定 一 个 车 位 是 被 占用 还 是 可 用 。 
9.4.2 ”零售 和 供应 链 管 理 

物 联网 应 用 将 促进 商业 发 展 ， 提 高 社会 服务 水 平 ， 并 加 快 经 济 的 增长 。 目 前 的 应 用 主要 集中 
在 零售 、 物 流 服务 和 供应 链 管理 等 领域 。 工 业 、 政 府 和 社团 服务 也 可 以 受益 于 物 联 网 ， 从 而 促进 

[591] 社会 、 城 市 和 政府 向 更 好 和 更 高 效 的 方向 发 展 。 
9.4.2.1 零售 和 物流 服务 
RFID 应 用 极 大 地 依赖 于 零售 商 、 物 流 企业 和 快递 公司 的 采用 。 
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零售 商 为 每 件 物品 打上 标签 ， 从 而 一 次 性 解决 一 系列 问题 ， 准确 的 库存 、 丢 失控 制 和 支持 销 
售 终端 无 人 行走 〈 人 快速 检查 的 同时 减 小 入 店 行窃 和 劳力 成 本 ) 的 能 力 。 冷 却 链 和 保障 系统 对 食 
品 和 药品 打上 湿度 敏感 的 材料 或 电子 标签 ， 监 督 容 易 腐烂 的 原料 是 否 完 好 无 损 或 需要 特别 关注 。 
这 些 都 要 求 物体 、 制 冷 系统 、 自 动 化 数据 日 志 系 统 和 技术 人 员 之 间 相 互通 信 。 

例如 ， 在 食品 杂货 店 ， 你 买 了 一 加 仓 的 牛奶 ， 牛 奶 的 包装 有 一 个 RID 标签 ， 存 储 牛 奶 的 保 
质 期 和 价格 。 当 你 从 货架 上 拿 下 牛奶 时 ， 货架 显示 牛奶 的 保质 期 限 ， 该 信息 也 以 无 线 方式 发 送 到 
你 的 个 人 电子 助手 或 者 手机 上 。 当 你 离开 商店 时 ， 经 过 一 个 带 有 骸 人 式 标 签 阅 读 器 的 出 口 ， 该 阅 
读 器 计算 购物 车 上 所 有 商品 的 总 价 并 发 送 到 你 的 银行 。 这 样 ， 商 品 制 造 商 了 解 了 你 买 了 什么 东 
西 ， 而 商店 的 计算 机 也 获悉 了 每 件 商 品 精确 的 需求 。 

回 到 家 后 ， 你 会 把 牛奶 放 到 带 有 标签 阅读 器 的 冰箱 里 。 这 个 智能 冰箱 能 够 跟踪 所 有 放 在 其 
中 的 食品 ， 可 以 告诉 你 牛奶 和 其 他 食物 的 过 期 日 。 商 品 也 可 以 在 它们 被 扔 到 垃圾 桶 或 者 回收 桶 
后 继续 跟踪 。 根 据 你 购买 的 商品 ， 食 品 店 就 知道 了 你 的 个 性 化 需求 ， 并 给 你 发 送 特定 的 食品 促 
销 单 。 

9.4.2.2 供应 链 管 理 

供应 链 可 以 借助 物 联 网 系统 管理 ， 其 基本 思想 是 管理 相关 企业 形成 的 整个 网 络 ， 包 括 商品 
制造 、 运 输 和 售后 服务 企业 等 。 在 任意 时 间 ， 市 场 力 量 都 可 能 需要 供应 商 、 物 流 提供 商 、 位 置 和 
客户 ， 以 及 供应 链 上 其 他 参与 方 做 出 改变 。 这 种 改变 对 供应 链 基 础 设施 具有 非常 大 的 影响 ， 涉 及 
的 范围 从 贸易 伙伴 之 间 的 电子 通信 基础 层 到 更 复杂 的 过 程 配置 和 工作 流 安 排 。 工 作 流 安排 对 于 
快速 生产 过 程 是 至 关 重要 的 。 

供应 链 结合 了 过 程 、 方 法 、 工 具 和 配送 选择 ， 从 而 指导 合作 伙伴 按照 顺序 进行 高 效 和 快速 的 
贸易 工作 。 这 些 合作 企业 必须 步调 一 致 地 快速 工作 ， 因 为 供应 链 的 复杂 度 和 速度 基于 多 种 原因 
在 增加 ， 包 括 全 球 竞争 、 快 速 价格 波动 、 油 价 冲击 、 商 品 的 短 生 命 周 期 、 专 业 化 扩展 和 人 才 稀 缺 
等 。 供 应 链 是 一 个 多 种 功能 融合 的 高 效 网 络 ， 包 括 获取 资源 、 把 这 些 资源 转化 为 成 品 ， 并 最 终 把 
这 些 成 品 分 发 给 客户 。 下 面 的 例子 解释 了 物 联网 如 何 协 助 供应 链 ， 从 而 提升 贸易 效率 和 快速 
增长 。 592 

$19.9 物 联网 辅助 供应 链 管理 

供应 链 管理 是 公司 为 确保 供应 链 较 高 的 效率 和 成 本 收益 的 一 个 过 程 。 图 9-21 给 出 了 商品 生 
产 和 销售 供应 链 ， 包括 材料 或 组 件 供 应 商 、 分 发 中 心 、 通 信和 链 路 、 云 数据 中 心 、 一 些 零 售 商店 、 
公司 总 部 (如 沃尔玛 ) 和 银行 支付 等 。 这 些 商 业 伙 伴 通过 卫星 、 互 联网 、 有 线 和 无 线 网 络 、 卡 
车 、 火 车 和 航运 公司 、 电 子 银行 和 云 提供 商 等 连接 起 来 。 传 感 器 、RFID 标签 和 GPS 设备 可 以 在 
供应 链 的 每 个 位 置 上 部 署 ， 以 提升 在 线 贸 易 、 电 子 商务 或 者 移动 交易 等 。 供 应 链 管理 包括 5 个 主 
要 阶段 : 

。 阶段 1: 策划 和 协调 。 必 须要 有 一 个 计划 或 者 策略 ， 以 说 明 一 个 商品 或 者 服务 如 何 满 足 客 

户 的 需求 。 
。 阶段 2: 材料 和 器 材 供应 。 该 阶段 需要 和 原材料 提供 商 建 立 紧密 的 关系 ， 并 对 配送 、 分 发 
和 付费 方式 做 计划 。 . 

。 阶段 3， 制造 和 测试 。 商 品 被 制造 、 测 试 并 调度 配送 。 

。 阶段 4: 商品 分 发 。 取 得 客户 订单 ， 分 发 商品 。 

。 阶段 5; 售后 服务 和 退货 。 窜 户 可 能 会 退回 有 一 疯 的 商品 ， 公 司 处 理 客户 需求 。 E 
9.4.3 智能 电网 和 智能 建筑 

环境 保护 是 一 个 世界 性 问题 ， 其 中 一 个 方案 是 使 用 绿色 能 源 来 节约 能 源 消耗 ， 缓 解 全 球 变 
暖 问题 。 物 联网 的 另 一 个 重要 应 用 是 智能 电网 的 发 展 。 
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付款 和 处。 
a 销售 扫描 


。 补充 商品 更 新 的 











来 自 供应 商 
的 添 货 单 


J 


供应 商 
交付 到 仓库 
< 一 


图 9-21 多 个 合作 方 商业 领域 的 供应 链 管理 


HH ARR: www. igd. com/images/Factsheets/modern-supply-chain. jpg. 


9.4.3.1 智能 电网 

美国 的 很 多 电力 公司 已 经 或 者 正在 升级 它们 的 电力 管理 和 配送 系统 。 在 用 户 家 中 部 署 很 多 
传感器 (智能 温度 调节 器 ) ， 收 集 信息 并 通过 网 络 发 回 到 主 站 (可 能 是 一 些 本 地 中 心 )。 主 站 根 
据 这 些 信 息 来 进行 复杂 电力 管理 ， 并 发 送 控制 信号 给 电网 以 节约 能 源 。 智 能 电网 通过 在 发 电 、 传 
输 、 配 送 和 消耗 过 程 中 应 用 感知 、 测 量 和 控制 设备 来 工作 。 

$19.10 物 联网 支持 的 智能 电网 

智能 电网 包含 一 个 智能 监测 系统 ， 跟 踪 系 统 中 的 电流 。 智 能 电表 是 对 现 用 电表 的 电子 升级 ， 
它 实 时 跟踪 用 电量 ,这 样 用 户 和 电力 公司 在 任何 时 刻 都 可 以 了 解 用 电量 。 电 是 按 “时 价 ” 来 计 
费 的 ， 即 在 高 峰 时 期 电费 较 高 。 图 9-22 是 物 联网 支持 的 智能 电网 。 

当 电 最 便宜 的 时 候 ， 用 户 可 以 通过 智能 电网 开启 部 分 家 用 电器 (WARK), 或 者 开始 茶 些 
工厂 加 工 工 作 。 在 高 峰 时 段 ， 智 能 电网 关闭 一 些 电器 设备 以 节约 用 电 。 深 度 参 与 的 用 户 可 能 通过 
智能 电表 来 远程 查看 用 电量 ， 并 做 出 关于 用 电 的 实时 决策 。 当 家 里 没 人 的 时 候 ， 冰 箱 或 者 空调 系 
统 可 以 远程 关闭 。 | 

9.4.3.2 智能 建筑 

物 联 网 使 得 我 们 的 生活 更 加 舒适 、 方 便 、 安 全 ， 并 节省 了 能 源 消耗 和 环境 影响 。 它 可 以 在 智 
能 建筑 中 使 用 ， 如 居民 建筑 、 商 业 建 筑 、 工 业 建 筑 和 政府 设施 等 。 此 时 ， 物 联网 可 以 应 用 在 报警 
系统 、 访 问 控制 、 室 内 温度 控制 和 电梯 等 。 智 能 建筑 可 以 是 一 个 购物 中 心 、 一 栋 家 庭 住宅 、 一 所 

593 | 医院 或 者 一 个 高 层 写字 楼 。 智 能 建筑 需要 监测 和 规划 供 热 、 空 气 条 件 、 照 明和 环境 改变 ， 它 们 可 
594 | 以 监督 楼 宇 安 全 、 火 灾 扑 灭 和 电梯 操作 等 。 智 能 建筑 技术 赋予 我 们 更 多 建筑 监测 和 感知 能 力 。 
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| ”智能 电网 是 一 个 使 用 了 新 技术 的 数 
中 据 能 源 系统 ， 体 现 了 清洁 能 源 ， 提 供 
更 加 高 效 和 可 靠 的 电力 


用 户 家 庭 发 电 装置 产生 
的 电 作为 主要 来 源 注 人 电 | 
网 ， 用 户 可 以 获得 能 源 贡 | 
献 的 回报 | 


用 户 可 以 在 任意 计算 机 上 实时 | 
| ” J : 3 查看 用 电量 ， 并 确定 在 他 们 不 在 
太阳 能 发 电 、 风 | Yo 。 z o 家 时 哪些 电器 需要 关闭 或 者 打开 | 


力 发 电 和 其 他 电力 
资源 注 人 电网 


用 户 确 定 使 用 哪些 电器 ; 
比如 ， 冰 箱 可 以 在 晚上 或 者 上 
白天 调 到 较 低 的 配置 





电力 公司 解决 C ARRAY) 智能 电表 跟踪 
电网 中 的 问题 ， 国 一 > 
服务 更 加 可 靠 


>o 0 | : 
HUB 











图 9-22 智能 电网 
资料 来 源 : http://impactnews. com/images/stories/CTA/2009/04/15-grid. jpg, 


9.4.4 信息 物理 系统 (CPS) 

计算 机 变 得 越 来 越 普及 ， 计 算 设 备 已 被 应 用 在 电视 遥控 器 、 智 能 手机 、 电 梯 、 自 动 扶 梯 、 雨 
刮 器 、 办 公 室 /家 里 的 温度 调节 器 ， 以 及 十 字 路 口 的 交通 信号 灯 中 。 这 些 设备 在 日 常生 活 中 非常 
普遍 ， 以 至 于 我 们 其 至 不 认为 它们 是 计算 机 。 科 研 工作 者 把 这 些 设备 称 为 嵌入 式 系 统 ， 完 成 一 个 
或 者 多 个 特定 的 功能 。 随 着 智能 手机 、GPS 导航 和 平板 电脑 的 出 现 ， 租 人 式 系统 发 展 成 为 新 的 智 
能 系统 ， 称 为 信息 物理 系统 (CPS). 

CPS 系统 把 计算 过 程 和 物理 世界 结合 起 来 ， 形 成 一 个 交互 式 智 能 内 人 式 系统 。CPS 系统 在 很 
多 电脑 和 电视 游戏 系统 中 使 用 ， 最 具 代 表 性 的 例子 是 Nintendo Wii 交互 式 游 戏 系 统 。 基 于 光标 的 
CPS 在 很 多 领域 也 得 到 应 用 ， 包 括 汽车 、 航 空 航天 、 卫 生 医 疗 、 机 器 人 、 制 造 业 、 战 场 训 练 和 消 
费 类 电器 等 。 一 个 完整 的 CPS 系统 包括 府 人 式 计算 机 、 网 络 监 测 器 和 对 物理 过 程 的 智能 控制 ， 
而 人 参与 到 反馈 环 中 。 在 物理 世界 中 ，CPS 必须 实时 处 理 人 机 交互 。 图 9-23 给 出 了 典型 的 CPS 
抽象 体系 结构 。 


eat D>... SER 4 
空间 (cyberspace ) Pere ae NESS men Ny 
es 


图 9-23 CPS 系统 中 三 个 组 成 部 分 交互 式 智能 工作 


CPS 的 一 个 重要 特征 是 把 系统 的 计算 和 物理 要 素 紧 密 协调 在 一 起 。 大 多 数 虚 拟 现实 系统 更 多 
地 关注 计算 要 素 ， 而 不 太 关注 计算 和 物理 要 素 之 间 这 种 紧密 的 联系 。 为 了 弥补 这 个 不 足 ，CPS 系 
统 应 该 被 设计 为 带 有 物理 输入 和 输出 的 交互 元 素 组 成 的 网 络 ， 而 不 是 单一 的 设备 。CPS 的 概念 扩 
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展 自 机 器 人 和 传感器 网 络 的 概念 ， 期 望 提 升 计算 和 物理 元 素 之 间 的 连接 。 其 设计 目标 包括 适应 
性 、 自 治 性 、 高 效 性 、 丰 富 功能 、 可 靠 性 、 安 全 性 和 可 用 性 等 。 

图 9-23 的 三 个 组 成 部 分 相互 之 间 频 繁 交 互 ， 传 感 网 络 和 人 机 交互 接口 是 三 个 部 分 连接 的 桥 
梁 。 在 一 个 CPS 系统 中 ， 赛 博 空 间 (cyperspace) 和 物理 世界 相互 融合 ， 其 中 组 人 式 计算 、 真 实 
世界 数据 和 实时 响应 具有 同等 地 位 的 重要 性 。 这 种 新 的 融合 需要 新 的 认识 和 技术 来 处 理 。 为 了 
在 多 个 领域 扩展 CPS 系统 的 潜在 作用 ， 我 们 需要 发 展 新 的 技术 ， 其 中 之 一 就 是 在 正确 的 时 候 人 
的 干预 ， 比 如 在 开车 时 ， 人 的 干预 要 避免 和 系统 的 冲突 。 

我 们 需要 设计 CPS 系统 来 代替 人 类 在 危险 或 者 无 法 到 达 的 环境 下 工作 ， 比 如 战场 、 地 震 废 
越 中 的 救援 和 深海 探测 环境 。 用 户 在 一 系列 工作 中 要 求 紧密 协调 ， 如 航空 管制 、 战 争 、 卫 生 保 健 
监测 和 生命 救援 等 。 从 2006 年 起 ， 美 国 国家 科学 基金 委员 会 (NSF) 把 CPS 确定 为 重要 的 研究 
领域 。NSF 和 其 他 组 织 在 最 近 几 年 也 资助 了 多 个 CPS 方面 的 研讨 会 。 

CPS 的 应 用 通常 受到 基于 传感器 的 系统 或 者 自动 系统 的 影响 ， 比 如 很 多 无 线 传感器 网 络 监测 
环境 的 某 些 方 面 ， 并 把 处 理 后 的 信息 中 继 到 中 央 节 点 。 其 他 类 型 的 CPS 系统 包括 自动 汽车 系统 、 
医药 监测 、 过 程控 制 系统 、 分 布 式 机 器 人 、 自 动 航行 等 。 下面 的 例子 说 明了 CPS 新 的 应 用 方向 。 

例 9.11 MIT 的 分 布 式 机 器 人 菜园 项 目 

MIT 分 布 式 机 器 人 菜园 项 目的 科研 人 员 对 机 器 人 有 照料 西红柿 菜园 进行 了 实验 。 该 系统 有 效 结 
合 了 分 布 式 感 知 (每 棵 植物 装配 有 一 个 传感器 节点 监控 其 状态 ) 、 导 航 、 操 作 和 无 线 网 络 来 一 起 
工作 ， 其 远 期 目标 是 基于 自动 机 器 人 和 传感器 实现 自动 温室 。 该 项 目 强调 可 扩展 性 和 重 棒 性 ， 实 
现 方案 是 完全 分 布 式 的 ， 仅 需要 简单 的 元 器 件 。 

MIT 研究 组 研制 了 一 个 移动 的 操作 终端 ， 并 安装 了 自动 设备 来 提供 分 布 式 感知 和 数据 存储 。 
他 们 把 植物 、 设 备 和 机 器 人 看 做 是 一 个 带 有 不 同 层 次 的 移动 、 感 知 、 动 作 和 自治 的 有 机 系统 。 系 
统 把 能 量 、 水 和 营养 物 传输 给 作物 。 该 系统 涉及 一 系列 重要 的 问题 ,包括 多 机 器 人 协调 问题 、 力 
反馈 理解 和 空间 计算 。MIT 研究 组 把 下 面 的 应 用 作为 他 们 在 CPS 工作 方面 的 愿景 : | 

。 可 持续 有 机 农业 。 使 用 大 量 的 机 器 人 和 嵌入 式 智能 系统 实现 大 规模 不 同类 型 作物 的 种 植 ， 

从 而 减 小 对 土壤 中 特殊 营养 物质 的 消耗 。 通 过 智能 融合 各 种 作物 ， 减 少 杀 虫 剂 的 使 用 。 
同时 ， 按 需 浇 水 可 以 减少 水 的 用 量 。 

© 自动 农场 。 在 小 规模 以 完全 自动 化 的 方式 提供 各 种 农作物 ， 从 而 使 得 人 类 在 边远 地 区 和 

外 层 空 间 得 到 长 远 发 展 。 
e 绿色 农业 。 水 果 和 蔬菜 可 以 种 植 在 建筑 物 的 内 部 和 外 部 ， 从 而 对 室温 和 能 效 起 到 积极 作 
用 ， 并 支持 居民 的 饮食 。 a 

我 们 可 以 把 多 个 科学 研究 领域 结合 起 来 实现 真正 的 智能 GPS 系统 。 这 些 领 域 包括 航 空 电子 
学 、 汽 车 、 电 力 系统 、 控 制 理 论 和 机 电工 程 等 。 在 美国 ，CPS 被 看 做 是 一 个 网 络 和 信息 联盟 的 优 
先 研 发 领域 。 l 


9.5 在 线 社 会 网 络 和 专业 网 络 


在 线 社会 网 络 使 得 大 量 社会 和 专业 性 的 功能 在 互联 网 上 发 展 成 为 可 能 。 通 过 专用 网 站 ， 可 
以 方便 地 建立 P2P 连接 。 社 会 网 络 改变 了 人 们 的 交互 和 沟通 方式 。 常 用 的 社会 网 络 网 站 有 
Facebook, Twiiter, Linkedin 和 MySpace 等 。 这 些 网 站 提供 的 服务 允许 用 户 建立 在 线 个 人 资料 ， 
并 和 在 同一 网 站 上 注册 的 用 户 建 立 好 友 关 系 。 根 据 最 近 的 一 份 互联 网 流量 报告 ， 排 名 前 15 名 的 
社会 网 络 吸引 了 10 亿 的 注册 用 户 (www. ebizmba. com/articles/social-networking-websites) 。 

2011 年 年 初 ，Facebook 是 排名 第 一 的 网 站 ， 每 个 月 有 6 亿 的 访问 量 。 社 会 网 络 用 户 之 间 的 
连接 以 及 兴趣 小 组 形成 的 社团 可 以 用 大 规模 图 论 来 分 析 ， 以 评估 社会 网 络 的 特征 、 用 户 统计 信 
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息 、 安 全 指标 、 网 络 特征 ， 以 及 所 提供 的 搜索 和 技术 支持 。 作 为 例子 ， 本 节 分 析 两 个 社会 网 络 ， 
即 用 于 分 享 照片 和 建立 好 友 关 系 的 Facebook， 以 及 用 于 微 博 和 交流 想法 的 Twitter, 
9.5.1 ”在线 社会 网 络 特征 

在 线 社会 网 络 (Online Social Network, OSN) 由 个 人 或 者 组 织 在 互联 网 上 形成 ， 这 些 个 人 和 
组 织 是 相关 的 、 互 联 的 ， 或 者 由 于 相同 的 兴趣 或 相互 依赖 而 相互 连接 。 用 户 之 间 的 关系 包括 好 
友 、 亲 威 、 相 同 专业 方向 、 有 相同 兴趣 、 金 融 交 易 伙 伴 、 喜 欢 或 者 不 喜欢 的 关系 、 社 区 或 者 种 族 
组 、 有 相同 宗教 或 者 政治 信仰 以 及 名 人 的 粉丝 等 。 一 般 而 言 ， 社 会 网 络 是 由 人 之 间 、 社 会 或 社区 
成 员 之 间 的 复杂 集合 组 成 的 。 

社会 网 络 是 表征 个 体 之 间 的 社会 关系 的 结构 。 在 社会 网 络 中 ， 节 点 表示 人 ， 节 点 之 间 的 边 表 
示 诸 如 好 友 、 亲 威 或 者 同事 等 关系 "'” 。OSN 服务 用 来 反映 人 们 之 间 的 社会 关系 。 在 OSN 之 前 已 
经 有 一 些 在 线 社区 作为 早期 OSN 服务 存在 ， 如 电子 布告 栏 (Bulletin Board Service，BBS) 。 但 是 
这 些 早期 的 社区 是 面向 组 的 ， 即 用 户 根据 不 同 的 兴趣 和 地 域 形 成 不 同 的 组 ， 而 现在 的 社会 网 络 
网 站 通常 是 面向 个 体 的 。 

9.5.1.1 在 线 社会 网 络 服务 

OSN 通过 互联 网 访问 和 Web 服务 提供 特定 的 社会 或 者 专业 相关 的 服务 ， 这 些 社会 网 络 服务 
通过 人 之 间 在 互联 网 上 的 通信 而 连接 在 一 起 。 早 期 的 在 线 社会 网 络 服务 包括 找 工 作 、 约 会 和 电 
子 布告 栏 等 ， 按 照 不 同 的 兴趣 和 地 域 把 用 户 组 织 成 不 同 的 组 。 而 现在 的 社会 网 络 服务 通常 是 面 
向 个 体 或 者 遵循 P2P 交互 的 。 这 里 列 出 了 一 些 提供 OSN 服务 的 想法 : 

。 每 个 用 户 建 立 自己 的 个 人 主页 或 个 人 资料 ， 并 通过 社会 连接 链接 在 一 起 。 
沿 特定 的 社会 连接 或 者 社会 网 络 图 遍历 。 
人 参与 人 或 者 注册 用 户 之 间 的 沟通 工具 。 
与 朋友 或 者 专业 小 组 内 的 人 分 享 音乐 、 照 片 和 视频 。 
在 特殊 利 基 市 场 中 的 社区 运营 ， 如 卫生 保健 、 体 育 和 兴趣 爱好 等 。 

© OSN 服务 使 用 了 定制 化 的 软件 工具 和 数据 库 。 

。 用 户 的 忠诚 度 高 、 会 员 发 展 迅 速 。 

。 从 典 入 式 广告 获得 收益 ， 并 可 访问 优质 内 容 。 

9.5.1.2 社会 网 络 属性 

在 大 多 数 社会 网 络 中 ， 每 个 用 户 有 自己 的 主页 〈 或 者 个 人 资料 页 ) ， 并 通过 用 户 的 社会 关系 
连接 在 一 起 ， 这 也 是 社会 网 络 面向 个 体 的 原因 。 一 旦 用 户 和 其 他 人 成 为 好 友 ， 他 就 可 以 访问 其 好 
友 个 人 资料 页 上 所 有 开放 的 内 容 。 用 户 也 可 以 访问 其 好 友 的 好 友 列 表 ， 查 看 他 们 的 个 人 主页 ， 这 
就 是 社会 网 络 图 遍历 的 例子 。 通 常 ，OSN 网 站 提供 两 种 基本 的 通信 方法 : 类 似 于 电子 邮件 的 内 
部 消息 和 公共 消息 板 。 用 户 还 可 以 向 他 的 好 友 分 享 图 片 、 视 频 、 网 站 链接 和 文章 等 信息 。 所 
有 的 OSN 网 站 都 有 这 4 个 基本 内 容 ， 但 是 由 于 不 同 的 服务 模式 和 市 场 方向 ， 实 现 的 方式 不 尽 
相同 。 

逻辑 上 说 ， 社 会 网 络 的 体系 结构 是 基于 PP 的 ， 但 社会 网 络 几乎 都 使 用 基于 客户 端 /服务 器 
的 体系 结构 向 公众 开放 。 这 带 来 了 一 系列 的 问题 ， 如 隐私 违反 、 服 务 可 用 性 、 系 统 稳定 性 、 网 络 
可 扩展 性 和 响应 性 能 等 。 本 节 将 会 研究 Facebook 和 Twitter 的 服务 模式 与 功能 ， 以 便 了 解 它们 成 
功 的 原因 。 为 了 了 解 它们 带 来 的 问题 ， 需 要 一 种 有 效 且 不 影响 网 络 性 能 的 方案 。 

9.5.1.3 代表 性 OSN 

表 9-10 总 结 了 5 种 注册 用 户 最 多 的 OSN，Facebook Twitter 和 Myspace 等 网 站 如 今 非常 受 欢迎 。 
表 9-10 对 5 个 服务 质量 相关 的 属性 进行 了 打分 ， 其 中 5 分 是 满分 ， 表 示 最 好 的 网 站 ， 而 3 分 是 平均 
分 ,得 分 大 于 4 的 网 站 就 已 经 是 非常 好 的 网 站 了 。 在 生成 总 评分 时 ，5 种 属性 的 权重 是 相同 的 。 根 
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据 应 用 领域 的 不 同 ， 这 些 属性 也 可 以 按照 不 同 的 规则 赋予 不 同 的 权重 ， 从 而 得 到 不 同 的 排序 。 
表 9-10 在 2011 年 4 月 排名 前 五 的 社会 网 络 网 站 评估 







名 称 (E) 简要 介绍 和 网 站 


Facebook 2004 | 拥有 大 量 应 用 的 内 容 共享 ;www. facebook. com/ 6 “5 | 4 
Skype 2003 co 话 和 即时 消息 ;www- skype. com 5.21 3 
YouTube 2005 视频 上 传 和 分 享 网 站 ; www. youtube. com 5 


Twitter 2006 微 博 、 新 闻 和 通知 www. twitter. com 1.75 
MySpace 2003 定制 的 社会 服务 services; www. myspace. com 








4.5 4.51 
















































社会 网 络 几乎 都 使 用 基于 客户 端 / 服 务 器 的 架构 ， 大 量 的 服务 器 组 成 数据 中 心 。 也 就 是 说 ， 
所 有 数据 〈 包 括 博客 、 照 片 、 视 频 和 社会 网 络 关系 ) 都 存储 和 管理 在 由 服务 提供 商 拥有 的 中 央 
服务 器 集群 上 。 这 种 传统 的 体系 结构 在 扩展 性 方面 有 一 定 优势 ， 因 为 用 户 在 任何 客户 端 〈 包 括 
固定 机 器 和 移动 设备 ) 都 可 以 访问 他 们 的 数据 。 但 是 ， 这 种 体系 结构 也 有 一 些 实现 问题 ， 比 如 


[59] 隐私 个 人 信息 可 能 会 丢失 ， 而 且 需 要 在 高 蜂 期 监控 大 量 服 务 器 。 


9.5.1.4 在 线 社会 网 络 
为 了 在 竞争 中 胜出 ，OSN 需要 定制 化 ， 首 先 ， 要 具有 自己 的 特征 ， 提 供 自 己 的 API 接口 。 其 
次 ， 所 选择 的 论坛 类 型 必须 和 大 多 数 用 户 社区 相关 。OSN 平台 还 必需 有 具体 的 功能 ， 可 以 使 用 
户 方便 地 加 入 和 享受 服务 。 再 次 ， 提 供 商 必须 证 明 其 在 线 营销 理念 以 吸引 用 户 加 入 和 离开 。 先 进 
的 软件 、 虚 拟 化 数据 中 心 、 处 理 和 存储 云 平台 也 是 必需 的 。 
作为 按 需 服务 的 提供 商 ，OSN 平台 需要 对 所 有 Web 2. 0 用 户 社区 都 具有 吸引 力 ， 而 且 要 具有 
高 可 用 和 高 性 能 特性 。 因 为 OSN 平台 大 都 基于 客户 端 /服务 器 模式 ， 所 以 提供 商 必须 维护 巨大 的 
数据 中 心 。 为 了 更 好 地 服务 客户 ， 这 些 数据 中 心 借助 虚拟 化 技术 提供 云 服 务 。 
9.5.1.5 在 线 社会 网 络 的 益处 
一 个 成 熟 的 社会 网 络 社 区 可 以 在 论坛 的 基础 上 建立 ， 从 而 获得 下 面 的 4 个 益处 : 
。 高 回访 率 。 用 户 经 常会 回访 社会 网 络 社区 ， 这 为 良好 的 网 页 印象 高 广告 收益 提供 了 
A 
s 用 户 忠 诚 度 。 用 户 和 他 们 的 好 友 连 接 ， 而 且 不 会 轻易 放弃 这 种 连接 。 用 户 不 会 转向 其 他 
社会 网 络 ， 相 反 ， 他 们 有 很 高 的 忠诚 度 。 . 
。 人 虚拟 增长 。 用 户 会 邀请 他 们 的 好 友 来 到 社会 网 络 社区 ， 即 社会 网 络 自己 在 生长 ， 也 是 低 
成 本 营销 的 机 会 。 
。 商业 模式 。 在 社会 网 络 社区 中 ， 除 了 广告 收入 外 ， 提 供 商 可 以 通过 订阅 优质 内 容 而 获得 
收入 。 
Twitter 并 不 是 完全 把 离线 的 关系 复制 到 网 站 上 ， 因 此 ， 目 前 (2010 Æ) Twitter 的 吸引 力 远 
远 小 于 Facebook。 另 外 ，Facebook 并 不 像 Twitter 一 样 开放 。 这 些 特征 使 得 人 们 更 信任 Facebook, 
还 有 一 点 ，Facebook 的 功能 比 Twitter 更 复杂 。 尽 管 Twitter 有 很 多 第 三 方 应 用 ， 但 对 于 人 门 者 来 
说 还 是 不 方便 使 用 。Facebook 能 人 了 很 多 通用 功能 。 如 果 用 户 不 喜欢 使 用 第 三 方 应 用 以 获得 通用 
的 功能 ， 按 照 现在 的 趋势 该 用 户 更 可 能 会 去 Facebook。 
9.5.2 基于 图 论 的 社会 网 络 分 析 
社会 网 络 分 析 已 经 成 为 现代 社会 学 的 关键 技术 之 一 ， 也 吸引 了 其 他 领域 的 高 度 关注 ， 包 括 
人 类 学 、 生 物 学 、 通 信 、 经 济 、 地 理学 、 信 息 科 学 、 组 织 结构 学 、 社 会 心理 学 和 社会 语言 学 等 。 
刻画 用 户 之 间 形 成 的 关系 是 社会 网 络 分 析 的 主要 目标 。 用 户 处 在 一 个 称 为 “小 世界 ”的 社会 ， 
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即 所 有 用 户 之 间 通 过 较 短 的 社会 熟人 链 相 连接 。 所 有 社会 网 络 并 不 像 想 象 的 那样 混乱 或 者 随机 ， 
而 是 有 其 底层 结构 。 本 节 将 分 析 一 些 社 会 网 络 行为 。 

社会 关系 通常 映射 为 有 向 或 者 无 向 图 ， 有 时 称 为 熟人 图 或 者 社会 连接 图 。 图 中 的 节点 对 应 
用 户 ， 而 边 对 应 节点 之 间 的 连接 或 者 关系 。 社 会 连接 图 可 以 是 复杂 和 层次 结构 的 ， 以 反映 各 个 层 
次 的 社会 关系 ， 包 括 家 庭 层次 到 全 国 、 全 球 的 层次 。 社 会 网 络 有 其 益处 也 有 星 端 ， 它 在 自由 的 社 
会 中 很 受 欢 迎 ， 但 是 在 某 些 国家 ， 由 于 政治 和 宗教 等 ， 社 会 网 络 会 被 屏蔽 ， 以 防止 可 能 的 滥用 。 

9.5.2.1 社会 网 络 图 属性 

社会 网 络 在 问题 解决 、 机 构 组 织 和 个 体 目 标 实现 等 方面 扮演 着 重要 的 角色 。 一 个 社会 网 络 
是 所 有 节点 之 间 相 关连 接 的 映射 ， 它 也 可 以 用 来 评估 社会 资产 ， 即 个 体 从 社会 网 络 获得 的 价值 。 
社会 网 络 图 的 一 个 例子 如 图 9-24 所 示 ， 黑 点 是 节点 〈 用 户 ) ， 并 通过 特定 关系 的 边 连 接 起 来 。 
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图 9-24 社会 网 络 图 示例 


9.5.2.2 节点 度 、 可 达 性 、 路 径 长 度 和 中 间 性 

节点 度 是 指 该 节点 到 图 中 其 他 节点 的 边 的 数目 。 可 达 性 是 指 图 中 任意 节点 可 到 达 其 他 节点 
的 程度 。 路 径 长 度 是 指 节点 之 间 的 最 短 距离 。 平 均 路 径 长 度 是 指 任意 两 个 节点 之 间 最 短路 径 的 
平均 值 。 中 间 性 揭示 了 一 个 节点 处 在 其 他 节点 之 间 的 程度 。 这 些 度量 指标 反映 了 一 个 人 通过 他 
的 直接 链接 间接 地 与 谁 连接 。 

9.5.2.3 ”邻近 性 和 凝聚 性 

邻近 性 用 来 衡量 一 个 节点 与 其 他 节点 (直接 或 者 间接 ) 相 邻 的 程度 ， 反 映 了 通过 网 络 中 的 
用 户 访问 信息 的 能 力 ， 它 是 网 络 中 任意 一 对 节点 之 间 最 短路 径 和 的 倒数 。 凝 聚 性 衡量 节点 之 间 
直接 连接 的 程度 。 每 个 节点 和 其 他 所 有 节点 直接 连接 形成 的 组 称 为 “ 簇 ”。 

9.5.2.4 社会 圈子 或 集群 

社会 轿子 是 指 一 些 结构 化 组 。 如 果 直 接 接触 的 严格 程度 较 弱 ， 或 者 作为 结构 内 聚 块 ， 社 会 圈 
子 可 以 是 松散 的 ， 也 可 以 是 紧密 的 ， 这 依赖 于 所 使 用 的 规则 的 严格 程度 。 图 9-24 所 示 的 圆圈 内 
部 的 节点 形成 一 个 孤立 集群 。 聚 集 系数 表征 了 一 个 节点 的 两 个 直接 邻居 互 为 邻居 的 可 能 。 

9.5.2.5 集中 式 和 分 散 式 网 络 

中 心性 是 根据 节点 与 网 络 连接 的 程度 ， 对 节点 社会 力量 的 粗略 估计 ， 中 间 性 、 邻 近 性 和 度 都 
是 用 来 评估 中 心性 的 。 集 中 式 网 络 的 边 分 散在 一 个 或 者 少数 节点 上 ， 而 在 分 散 式 网 络 中 节点 拥 
有 的 边 数 基 本 相等 。 

9.5.2.6 桥 和 本 地 桥 

如 果 删 除 一 条 边 会 使 得 其 端点 位 于 不 同 的 集群 或 者 图 的 不 同 部 分 ， 那 么 称 这 条 边 为 桥 。 例 
如 ， 图 9-24 中 节点 C 和 D 之 间 的 边 就 是 一 个 桥 。 本 地 桥 的 端点 没有 公有 的 邻居 。 本 地 桥 被 包含 
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在 一 个 周期 内 。 

9.5.2.7 声望 和 放射 性 

在 社会 网 络 图 中 ， 上 声望 描述 了 节点 的 中 心性 ， 度 的 声望 、 邻 近 性 声望 和 状态 声望 都 是 对 声望 
的 评 佑 。 放 射 性 是 网 络 向 外 延伸 ， 并 提供 新 信息 和 新 影响 的 程度 。 

9.5.2.8 结构 凝聚 、 结 构 相 等 和 结构 洞 

假设 把 组 拆散 至 少 需要 移 除 的 节点 数目 为 m， 那么 结构 凝聚 的 程度 就 定义 为 m。 结 构 相 等 是 
指 节点 和 其 他 节点 有 相同 链接 集 的 程度 。 而 结构 洞 可 以 通过 增加 节点 之 间 的 连接 来 弥补 。 这 和 
社会 资本 相关 : 把 不 连接 的 人 连接 起 来 后 ， 可 以 控制 他 们 的 通信 。 

例 9. 12 社会 网 络 图 举例 

图 9-25 给 出 了 2 个 社会 网 络 例子 。 在 图 9-25a 中 ， 社 会 网 络 图 是 某 公 司 研究 实验 室 电子 邮件 
交互 形成 的 ， 由 436 个 节点 组 成 的 网 络 。 社 会 网 络 可 以 比 这 大 很 多 倍 ， 比 如 在 规模 较 大 的 大 学 ， 
两 年 时 间 内 的 电子 邮件 交互 图 包含 43 553 个 节点 ; 而 如 果 计 算 MSN 一 个 月 的 即时 消息 图 ， 可 以 
得 到 2.4 亿 个 连接 。 分 析 大 规模 社会 网 络 可 以 帮助 我 们 了 解 全 局 行为 。 图 9-25b 是 一 个 图 书 推荐 

形成 的 网 络 。Jon Klienberg'“1 对 新 闻 、 观 点 和 政治 动员 等 传染 病 图 进行 了 分 析 ， 瀑布 (cascade) 

行为 模型 是 社会 网 络 研究 的 热点 。 E 
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a) 合作 电子 邮件 交互 图 ( 由 L.Adamic 和 E.Adar 提 供 ，2005 ) 





b) 图 书 推荐 网 络 ( 由 J.Leskovec、L.Adamic 和 B.Huberman 提 供 ，2006 ) 
图 9-25 2 个 社会 网 络 的 图 表示 


9.5.3 社会 网 络 社区 和 应 用 
如 今 ， 利 基 社 区 (Niche communities) 变 得 越 来 越 重 要 和 有 价值 ， 尤 其 是 对 有 特点 的 杂志 、 


SOR Pini, WRAS 425 


广播 电台 、 运 动 类 网 站 、 俱 乐 部 、 健 康 网 站 、 在 某 些 健康 领域 有 特长 的 私人 诊所 ， 以 及 正在 寻找 
和 客户 交互 的 新 方式 的 公司 。 本 节 介绍 一 些 社会 网 络 社区 例子 。 603 

9.5.3.1 社会 网 络 中 的 社区 

大 规模 的 社会 网 络 形成 了 由 数 百 万 用 户 组 成 的 大 规模 图 。 这 些 图 通常 可 以 划分 为 多 个 小 的 
子 图 ， 对 应 不 同 的 社区 。 下 面 列 出 了 6 个 特定 的 社会 网 络 社区 ， 对 应 社会 中 不 同 功能 的 部 门 。 需 
要 说 明 的 是 ， 这 只 是 部 分 例子 ， 从 在 线 社会 网 络 中 也 可 以 形成 其 他 社区 。 

。 产业 社区 。 由 具有 专业 知识 的 产业 工人 或 者 专家 相互 连接 形成 的 社区 ， 分 享 知 识 和 工作 
经 验 。 
艺术 社区 。 由 艺术 家 、 音 乐 家 或 者 名 人 形成 的 社区 ， 可 以 用 来 个 性 化 和 加 强 他 们 与 其 粉 
丝 之 间 的 联系 ， 并 建立 与 其 他 社区 成 员 的 联系 。 
体育 社区 。 由 专业 运动 员 和 粉丝 形成 的 社区 ， 可 以 在 社区 内 寻找 好 友 、 庆 祝 和 交换 想法 。 
健康 社区 。 对 健康 问题 特别 关注 的 人 形成 的 社区 。 
会 议和 活动 社区 。 该 社区 支持 对 会 议和 活动 的 准备 ， 以 及 后 续 的 事务 处 理 。 

。 校友 社区 。 毕 业 生 形成 的 社区 ， 用 来 寻找 老 同学 、 保 持 联 系 ， 并 建立 好 友 关 系 。 

例 9. 13 论文 引用 图 和 社区 

John Hoperoft'*12010 年 在 南 加 州 大 学 的 一 次 演讲 中 谈 到 使 用 大 规模 网 络 图 来 分 析 OSN 的 影 
响 。 他 注意 到 了 计算 和 通信 以 一 种 普 透 的 方法 在 融合 ， 也 谈 到 了 网 络 设备 和 传感器 带 来 的 数据 
猛 增 情 况 。 互 联网 搜索 引擎 响应 也 在 改变 ， 需 要 以 快速 、 个 性 化 和 智能 的 方式 回答 更 高 居 次 的 问 
题 ， 如 “我 应 该 去 哪 上 大 学 ”等 问题 。 他 使 用 了 一 个 例子 (图 9-26) 来 说 明科 研 思想 传播 的 轨 











迹 以 及 社会 网 络 社区 的 演化 。 604 











< 论文 分 为 三 个 类 别 
a) 论文 引用 图 b) 经 过 处 理 后 的 论文 引用 图 


图 9-26 ”论文 引用 图 和 研究 社区 
注 : 由 康 奈 尔 大 学 的 Yookyung Jo 提供 。 

图 9-26a 给 出 了 在 某 个 领域 论文 之 问 引用 形成 的 图 ， 点 代表 论文 ， 如 果 两 篇 论文 被 一 方 或 者 
双方 引用 ， 那 么 它们 对 应 的 点 之 间 有 一 条 边 。 在 经 过 去 除 论文 自 引 等 清除 过 程 后 ， 所 得 的 图 如 图 
9-26b 所 示 。 根 据 论 文 是 否 采 用 相同 的 方法 或 者 基于 相同 的 解决 方案 模型 ， 可 以 把 清除 后 的 图 划 
分 为 三 类 论文 。 ] 

大 量 的 研究 揭示 了 在 大 规模 社会 网 络 和 信息 网 络 中 社区 结构 的 独特 属性 。Jure Leskovec 等 
人 [通过 对 70 个 大 规模 、 稀 朴 、 真 实 社会 网 络 的 研究 ， 指 出 社区 最 合适 的 大 小 是 100 ~ 150。 这 
些小 的 社区 是 基于 特殊 关系 而 组 建 的 ， 如 家 庭 和 朋友 、 同 学 和 同事 等 。 这 些 社区 也 可 能 有 部 分 重 
#2, TA (HP) 既 和 社区 内 的 人 连接 ， 又 和 社区 外 的 人 连接 。 结 果 表 明 ， 正 如 人 们 在 真实 生 
活 中 一 样 ， 有 很 多 人 对 外 连接 的 数目 大 于 对 内 连接 的 数目 。 其 他 一 些 观察 结果 还 包括 社会 网 络 
中 核心 的 存在 ， 核 心 也 可 以 是 唯一 或 者 和 其 他 社区 共享 的 。 
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9.5.3.2 社会 网 络 应 用 领域 
社会 网 络 的 应 用 领域 很 多 ， 表 9-11 把 应 用 分 为 了 5 个 领域 ， 并 附 有 相关 例子 和 网 站 。 在 企 
业 中 使 用 社会 网 络 服务 可 以 提高 企业 在 其 商业 领域 的 影响 。 社 会 网 络 以 一 种 低 成 本 的 方式 把 人 
关联 起 来 。 它 可 以 作为 产品 和 服务 提供 商 维系 和 管理 客户 关系 的 工具 ， 从 而 帮助 旨 在 扩展 人 了 脉 
和 业务 的 企业 家 与 小 企业 。 企 业 和 公司 也 可 以 借助 社会 网 络 来 打 广 告 。 总 之 ， 社 会 网 络 提供 了 在 
全 球 环境 内 提升 商业 的 简单 方法 。 
表 9-11 社会 网 络 的 应 用 
领 域 例子 和 网 站 
LinkedIn 把 专业 人 士 联系 起 来 (www. linkedin. com), Hub Culture 把 企业 家 联系 起 来 (www. 














商业 hubculture. com) 
教育 美国 学 校 董事 会 和 教育 类 话题 可 以 在 线 讨 论 (www. ning. com) 
美国 疾病 控制 和 免疫 中 心 在 孩子 中 受 欢迎 的 网 站 www. whyville. net 上 演示 了 接种 疫苗 的 重要 性 。 美 
政府 国 海洋 和 大 气管 理 局 在 http://secondlife. com 网 站 上 有 一 个 虚拟 岛 ， 人 们 可 以 在 该 岛 上 探索 地 下 洞穴 
或 者 全 球 变 暖 的 副作用 








www. patientslikeme. com 上 的 用 户 可 以 通过 该 网 站 与 处 理 相同 问题 、 研 究 相似 病人 数据 的 用 户 连 接 。 
医药 和 卫生 保健 | 已 加 入 www. onerecovery. com 的 www. sobercircle. com 网 站 赋 于 处 在 恢复 期 的 病人 与 其 他 人 交流 的 能 力 ， 
并 加 快 恢复 


在 线 约 会 诸如 Facebook, Second Life 和 MySpace 等 社会 网 络 逐 渐变 成 在 线 寻找 约会 机 会 的 新 方式 





面向 商业 的 社会 网 络 的 典型 例子 是 LinkedIn. com， 间 在 把 专业 人 士 相互 联系 起 来 。 某 些 社会 
网 络 同时 考虑 人 在 真实 网 络 中 存在 性 ， 即 成 员 同时 在 社会 网 络 和 真实 社会 中 联系 起 来 ， 这 将 会 
进一步 增加 商业 的 价值 。 社 会 网 络 的 应 用 已 经 扩展 到 商业 应 用 ， 很 多 品牌 正在 创建 自己 品牌 的 
社会 网 络 ， 通 过 把 客户 和 品牌 形象 在 同一 平台 上 联系 起 来 构建 客户 关系 。 

9.5.3.3 面向 专业 人 士 互联 的 LinkedIn 社会 网 络 

面向 专业 人 员 互 联 的 社会 网 络 有 LinkedIn, Xing. com 和 Ecademy. com, LinkedIn 是 以 商业 为 
导向 的 社会 网 络 ， 关 注 于 在 线 和 离线 专业 网 络 的 建立 和 管理 ， 目 前 已 经 有 来 自 200 多 个 国家 、 超 
过 8 000 万 的 注册 用 户 ， 其 中 约 有 一 半 的 用 户 来 自 美国 以 外 的 国家 。 几 乎 每 秒 都 有 新 的 用 户 加 入 
LinkedIn 网 络 ， 目 前 财富 500 强 的 企业 高 层 人 员 都 是 LinkedIn 的 注册 用 户 。 每 个 用 户 维护 一 个 由 
他 在 业务 上 认识 和 信任 的 人 组 成 的 联系 人 列表 ， 用 户 可 以 邀请 其 他 人 加 入 网 络 。 

9.5.3.4 教育 类 应 用 

美国 学 校 董事 会 协会 的 一 份 报告 指 出 ， 在 使 用 社会 网 络 的 学 生 中 ， 约 有 60% 的 学 生 在 线 交 
流 教学 方面 的 话题 ， 更 让 人 吃惊 的 是 ， 超 过 50% 的 学 生 谈论 家 庭 作业 。 然 而 绝 大 多 数学 区 对 所 
有 形式 的 社会 网 络 在 上 学 期 间 都 有 严格 的 规定 。 关 注 于 老师 之 间 、 老 师 和 学 生 之 间 的 社会 网 络 
现在 正 被 用 来 进行 学 习 、 教 育 专业 发 展 和 内 容 共享 等 工作 。Ning. com, Learn Central TeachStreet 
等 社会 网 络 都 是 教育 类 社会 网 络 ， 用 于 教育 博客 、 电 子 档案 、 正 式 和 临时 社区 等 关系 的 建立 ， 以 
及 聊天 、 讨 论 等 形式 的 交流 。 

9.5.3.5 政府 应 用 

社会 网 络 工 具 可 以 作为 政府 收集 民意 和 发 布 最 新 活动 的 快速 和 简单 的 方式 。 美 国 疾病 控制 
和 免疫 中 心 在 孩子 中 受 欢 迎 的 网 站 www. whyville. net 上 演示 了 接种 疫苗 的 重要 性 。 美 国 海洋 和 大 
气管 理 局 在 Second Life 网 站 上 有 一 个 虚拟 岛 ， 人 们 可 以 在 该 岛 上 探索 地 下 洞穴 或 者 全 球 变 暧 的 
副作用 。 同 样 ，NASA 也 使 用 社会 网 络 (Twitter 和 Flickr) 工具 来 推销 实现 其 空间 野心 的 、 充 满 
活力 和 可 持续 的 道路 。 
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9.5.3.6 卫生 保健 和 医疗 应 用 

卫生 保健 领域 使 用 社会 网 络 来 管理 机 构 知 识 、 分 发 P2P 知识 ， 以 及 突出 某 些 专家 和 人 制度。 
使 用 专门 的 医药 社会 网 络 的 好 处 是 ， 所 有 成 员 都 是 从 国家 授权 董事 列表 中 选 出 的 从 业者 。 社 会 
网 络 对 于 制药 公司 来 说 更 有 吸引 力 ， 因 为 这 些 公司 大 约 需 要 使 用 32% 的 市 场 营销 份额 来 影响 社 
会 网 络 中 的 意见 领 秀 。 

社会 网 络 也 逐渐 成 为 帮助 生理 和 精神 患者 的 新 方法 。 患 有 重大 疾病 的 患者 可 以 借助 
PatientsLikeMe 和 其 他 患 有 类 似 疾 病 的 患者 连接 起 来 ， 并 研究 和 他 们 情况 相关 的 病人 资料 。 对 于 
MA AREA F , SoberCircle 赋 于 处 在 恢复 期 患者 与 其 他 人 交流 的 能 力 ， 有 相同 经 历 的 人 相互 鼓 
励 可 以 巩固 恢复 效果 。DailyStrength 为 很 多 问题 和 话题 提供 支持 组 ， 包 括 支持 Patients Like Me 和 
Sober Circle 提供 的 主题 而 SparkPeople 为 正在 减肥 的 成 员 提 供 社区 和 社会 网 络 工具 。 

9.5.3.7 约会 服务 

很 多 社会 网 络 为 用 户 提供 交流 和 交换 个 人 信息 的 在 线 环 境 ， 以 方便 约会 。 约 会 的 意图 可 以 
是 多 样 的 ， 从 一 次 约会 到 短期 或 者 长 期 的 关系 。 大 多 数 约会 社会 网 络 要 求 用 户 提供 一 些 个 人 信 
息 ， 包 括 年 龄 、 性 别 、 所 处 位 置 、 兴 趣 或 者 一 张 照片 。 出 于 安全 考虑 ， 通 常 并 不 鼓励 发 布 个 人 信 
息 。 用 户 在 发 布 个 人 信息 时 可 以 保留 一 定 程度 的 匿名 性 。 从 用 户 创 建 个 人 资料 并 和 其 他 用 户 通 
信 的 角度 来 说 ， 在 线 约会 网 站 和 社会 网 络 是 相似 的 。 

在 线 约 会 网 站 通常 是 收费 的 ， 而 社会 网 络 则 是 免费 的 。 在 线 约会 产业 营业 额 急剧 下 降 的 原 
因 之 一 是 ,很 多 用 户 倾向 于 使 用 免费 的 社会 网 络 服 务 。 很 多 流行 的 在 线 约会 网 络 (如 Match. 
com, Yahoo!, Personals 和 eHarmony. com 等 ) 的 用 户 数 在 下 降 ， 而 与 此 同时 MySpace 和 Facebook 
等 社会 网 络 的 用 户 数 则 在 持续 上 升 。 在 美国 ， 在 线 约会 网 络 的 访问 量 已 经 从 2003 年 高 峰 时 的 
21% 降 到 了 2006 年 的 10% 。 换 名 话说 ， 社 会 网 络 服务 正在 逐渐 超越 在 线 约 会 服务 。 

9.5.3.8 社会 网 络 中 的 隐私 泄露 问题 

很 多 人 担心 隐私 泄露 而 不 愿意 加 入 社会 网 络 。 尽 管 隐私 问题 的 严重 性 被 一 再 提 到 ,但 是 社 
会 网 络 用 户 数 仍然 是 相当 可 观 的 。 例 如 ， 很 多 人 控告 MySlace 把 他 们 的 隐私 内 容 公 布 出 去 。 正 如 
Jon Klienberg 所 观察 到 的 一 样 ， 我 们 使 用 的 软件 会 记录 我 们 的 行为 。 在 大 规模 社会 网 络 中 ， 匿 名 
化 不 能 完全 保护 敏感 数据 ， 下 面 的 例子 解释 了 这 种 场景 。 主 动 攻击 者 通过 创建 新 的 账户 就 可 以 
威胁 到 用 户 隐 私 ， 因 此 ， 我 们 需要 更 好 的 算法 和 想法 来 解决 该 问题 。 

例 9.14 攻击 匿名 化 社会 网 络 (Jon Klienberg54 ) 

考虑 这 样 一 个 攻击 场景 : 茶 组 织 无 意 中 汇 考 了 1 亿 用 户 组 成 的 匿名 化 通信 图 ， 如 图 9-27a 
所 示 。 攻 击 者 选择 一 小 部 分 用 户 账户 来 挖 据 他 们 的 隐私 关系 或 者 活动 ， 如 图 9-27b 所 示 。 在 数 
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据 被 泄露 前 ， 攻 击 者 可 能 创建 了 一 些 新 账户 ， 形 成 与 所 需 攻 击 的 目标 用 户 相连 接 的 子 图 及，[607 


如 图 9-27c 所 示 。 在 数据 被 泄露 后 ， 该 组 织 希 望 识别 出 吾 。 正 如 图 9-27d 所 示 ， 这 是 一 个 计算 
量 非常 大 的 问题 。 

事实 上 ，Kleinberg 发 现 小 的 随机 图 万 很 可 能 是 唯一 的 ， 并 且 可 以 通过 高 效 的 方法 找 出 来 (如 
图 9-27e 所 示 ) ， 因 为 每 条 边 以 0.5 的 概率 出 现在 随机 图 中 。 一 旦 找到 互 ， 如果 9-27f 所 示 ， 我 们 就 
可 以 顺 着 豆 的 边 找到 目标 节点 。 在 这 种 情况 下 ， 使 用 O((log n)'?) 新 节点 就 可 以 破坏 隐私 ， 因 此 ， 
我 们 应 该 尽量 避免 匿名 化 数据 的 泄露 。 为 了 使 用 户 免 受 这 种 攻击 ， 我 们 急需 隐私 保护 机 制 。 a 
9.5.4 Facebook: 世界 上 最 大 的 社会 网 络 

Facebook 是 由 Mark Zuckerberg 于 2004 年 创建 的 ， 最 初 只 对 哈佛 大 学 的 学 生 开 放 。 如 今 ， 任 
何 大 于 13 岁 且 有 合法 电子 邮件 地 址 的 人 都 可 以 在 Facebook 上 注册 。2011 年 3 H, Facebook 已 经 


有 6 亿 活 路 用 户 ， 而 且 月 增长 率 为 3.57% "“: ， 成 为 了 世界 上 最 大 的 社会 网 络 。 图 9-28 给 出 了 


Facebook 所 提供 的 服务 。 








428 ”第 三 部 分 网 格 、P2P 和 未 来 互联 网 


“1 亿 个 节点 


a) 大 规模 网 络 


1 亿 +12 个 节点 





d) 攻击 用 户 嵌入 了 社会 网 络 e) FRE BAY FAA f) 找到 目标 节点 
图 9-27 ”匿名 社会 网 络 中 的 攻击 跟踪 (约翰 克 莱 恩 伯 格 [44] 提供 ) 
如 图 9-28 所 示 ，Facebook 最 主要 的 功能 是 增强 用 户 之 间 的 沟通 。 社 会 比较 对 找 工 作 人 来 说 
更 有 用 ， 而 年 经 人 和 退休 人 员 则 喜欢 玩 一 些 社会 游戏 。 社 会 选择 、 发 送礼 物 和 资料 增强 为 经 常 性 
的 社会 联系 提供 了 便利 。 说 说 我 、 媒 体 共享 、 游 戏 、 取 名 、 约 会 和 社会 活动 是 一 些 传统 的 领域 。 
图 9-28 的 分 布 随 着 时 间 会 改变 。 一 旦 社会 网 络 的 隐私 和 安全 问题 得 以 解决 ， 注 册 用 户 将 会 更 大 
幅度 地 增长 。 l 
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财富 
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社会 比较 


资料 增强 
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图 9-28 2007 年 11 月 8 日 统计 的 2840 万 的 Facebook 应 用 分 布 
tk: 由 Shelly Farnham[23] 提供 。 
9.5.4.1 Facebook 的 功能 
Facebook 提供 6 个 重要 的 功能 ， 如 表 9-12 所 示 。Facebook 需要 在 隐私 方面 进一步 提升 。 和 
Twitter 相 比 ， 它 的 访问 控制 更 严格 ， 因 此 也 更 安全 。 但 是 ， 我 们 必须 认识 到 用 户 所 有 的 个 人 数据 
都 存储 在 Facebook 的 服务 器 上 ， 包括 教育 、 职 业 信 息 ， 以 及 个 人 消息 和 社会 连接 。 安 全 和 可 信 
是 阻止 用 户 加 入 和 保持 活跃 的 两 个 主要 原因 。 用 户 希 望 与 现实 生活 中 的 好 友 分 享 更 多 的 信息 。 
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表 9-12 Facebook 的 主要 功能 





混合 资料 : 照片、 简介 、 好 友 列 表 、 用 户 活动 记录 、 公 共 消 息 板 ， 以 及 其 他 选择 性 显示 的 组 件 
社会 网 络 图 遍历 | ”在 访问 控制 的 约束 下 ， 通 过 用 户 的 好 友 列 表 访问 其 他 用 户 


内 部 电子 邮件 式 的 消息 ; 好 友之 间 发 送 和 接收 私密 消息 ; 即时 消息 : 在 主页 上 访问 或 者 通过 第 三 








沟通 工具 方 客户 端 实现 ; 公共 消息 板 : 带 有 访问 控制 的 涂鸦 墙 ; 状态 更 新 : 带 有 访问 控制 功能 的 短 消息 ， 类 
似 于 微 博 

信息 分 部 照片 集 : 在 访问 控制 的 约束 下 ， 内 置 ; 链接 : 链接 到 外 部 URL 的 帖子 ， 在 活动 记录 中 显示 ; 视 

— 频 : TEVOR TL ARO BUA 














访问 控制 资料 页 上 的 任何 信息 都 可 以 设置 4 种 访问 控制 级 别 : 仅 自己 、 仅 好 友 、 好 友 的 好 友 、 所 有 人 
特殊 API 游戏 、 日 历 、 移 动 客户 端 





由 于 没有 注册 限制 ， 在 Facebook 用 户 之 间 维 护 信任 就 成 为 一 个 严峻 的 问题 。Facebook 使 用 
带 有 身份 认证 的 “网 络 ” 来 认证 用 户 ， 其 中 网 络 由 Facebook 中 的 具有 某 种 身份 的 部 分 用 户 组 成 。 
例如 ,为 了 加 入 一 个 大 学 的 网 络 ， 用 户 必须 使 用 该 大 学 的 电子 邮件 地 址 ， 或 者 按照 网 络 管理 员 给 
定 的 认证 方法 来 注册 。 注 册 用 户 的 好 友 可 以 通过 该 用 户 在 网 络 中 的 资料 来 识别 这 个 用 户 。 

9.5.4.2 Facebook 平台 的 体系 结构 

面 对 6 亿 活 路 用 户 ， 可 以 想象 有 和 多少 个 人 资料 和 多 媒体 信息 在 Facebook 上 共享 ， 也 可 以 想 
象 一 下 有 多 大 的 流量 流入 Facebook 的 网 站 (www. facebook. com), Facebook 平台 事实 上 是 一 个 超 
， 级 数据 中 心 ， 带 有 巨大 的 存储 空间 、 智 能 的 文件 系统 和 搜索 能 力 ， 其 体系 结构 如 图 9-29 所 示 。 





社区 引擎 





应 用 程序 ”应 用 程序 。 ”应 用 程序 


图 9-29 基于 社会 引擎 服务 器 和 API 的 Facebook 体系 结构 


Facebook 平台 是 由 大 规模 服务 器 集群 组 成 的 ， 这 些 机 器 称 为 台 边 (ringside) 社会 应 用 服务 
a. 社会 引擎 是 服务 器 的 核心 ， 负 责 用 户 身 份 识 别 、 安 全 、 泻 染 和 Facebook 的 集成 。Facebook 
为 用 户 访问 提供 了 三 种 API] (应 用 程序 接口 ) ， 而 社区 引擎 则 为 用 户 提供 网 络 服务 。 来 自 网 页 、[5 
网 站 和 网 络 的 访问 从 顶层 进入 Facebook 的 服务 器 。 社会 引擎 负责 所 有 用 户 应 用 程序 的 运行 ， 而 nile, 
开放 DSL 用 来 支持 应 用 的 执行 r 





怠 ” 一 种 开源 平台 。 一 一 译 者 注 
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9. 5.4.3 Facebook 的 新 应 用 

成 功 的 Facebook 应 用 帮助 用 户 实现 一 系列 社会 目标 ， 如 加 强 沟 通 、 通 过 与 别人 的 对 比 认识 
自己 、 寻 找 相同 兴趣 的 人 、 提 高 自我 展现 、 玩 社会 游戏 、 通 过 送礼 物 和 媒体 分 享 实 现 社会 交换 
等 。 与 面向 专业 性 的 社会 网 络 不 同 ，Facebook 在 个 人 领域 更 加 受 欢迎 。 

TE 2010 年 年 底 ，Mark Zukerberg 对 外 宣布 了 消息 交互 的 新 模式 ， 可 能 会 对 互联 网 上 信任 好 友 
和 社会 圈子 之 间 的 沟通 和 交流 产生 革命 性 的 变化 。 他 认为 传统 的 基于 电子 邮件 的 书信 式 的 沟通 
过 时 了 ， 并 提出 了 “社会 收 件 箱 ”(social inbox) 的 概念 ， 用 户 可 以 方便 地 获得 朋友 发 来 的 消息 ， 
并 可 以 根据 个 人 喜好 对 消息 排序 。 这 是 一 种 介 于 即时 通信 和 Twitter 之 间 的 概念 。 用 户 在 社会 网 
络 上 发 送 的 消息 越 多 ,或 者 Twitter 的 越 多 ， 或 者 交 的 朋友 越 多 ， 越 不 愿意 以 复杂 的 方式 来 表达 
自己 。 换 句 话 说， 简单 和 易 用 将 成 为 在 线 社会 网 络 未 来 需求 的 主流 。 
9.5.5 Twitter: 微 博 、 新 闻 和 提醒 服务 平台 

Twitter 是 一 种 微 博 服 务 ， 是 在 2006 年 由 Jack Dorsey, Biz Stone 和 Evan Williams 创建 的 。 
Twitter 上 的 消息 长 度 限制 在 140 个 字符 ， 其 思想 来 源 于 如 智能 手机 等 移动 设备 上 的 短 消 息 服 务 
(Short Message Service, SMS). FAS? Æ Twitter 上 发 送 的 消息 将 被 转发 给 与 发 送 者 相关 的 众多 用 
È, Twitter 起 初 是 以 即时 分 享 想法 和 观点 为 目的 的 ， 但 是 逐渐 地 ， 主 要 的 电视 网 络 和 报纸 开始 使 
用 Twitter 向 大 众 发 布 新 闻 。 因 此 ，Twitter 变 成 了 一 个 媒体 平台 ， 普 通用 户 也 可 以 出 现在 头条 
新 闻 。 

9.5.5.1 Twitter 体系 结构 和 访问 控制 

Twitter 系统 由 三 个 主要 的 模块 组 成 : 候 虫 、 索 引 吕 和 搜索 工具 。 三 个 模块 有 各 自 不 同 的 功 
能 ， 并 通过 均衡 器 综合 在 一 起 形成 完整 的 系统 。 图 9-30 给 出 了 Twitter 访问 的 8 个 步骤 。Twitter 
作为 状态 分 享 网 站 起 步 ， 用 户 通 过 他 们 的 移动 电话 来 访问 。 但 它 很 快 就 变 成 了 一 种 Web 2. 0 微 博 
网 站 ， 并 成 为 了 信息 分 享 和 新 闻 报道 的 平台 。 截 至 2010 FER, Twiter 已 经 有 1.75 亿 用 户 ， 而 
Hubspot 的 报道 指出 ，Twitter 的 增长 率 达 到 了 惊人 的 18000% 。 
用 户 1. EE fa] Twitter API 发 送 请 求 
2. Twitter API 用 Twitter 数据 回复 
3. 卜 虫 保存 数据 到 文件 





5. 索 引 器 在 数据 库 中 存储 数据 作为 输出 
6. 用 户 向 搜索 工具 发 送 查 询 请 求 
7. 搜索 工具 从 数据 库 读 取 数据 并 计算 一 个 排序 
8. 搜索 工具 读 取 相 应 的 原始 微 博 (tweet) 
` 图 9-30 Twitter 体系 结构 和 访问 协议 

注 ; 由 南 加 州 大 学 Hao Song 提供 ，2009。 

9.5.5.2 Twitter 发 展 趋势 

Twitter 的 成 功 可 以 归结 为 两 个 主要 原因 : 优美 的 设计 和 易于 增加 第 三 方 应 用 。 在 Twitter 中 ， 
用 户 发 布 的 微 博 称 为 tweets。 设 计 的 优美 在 于 ， 微 博 的 长 度 是 受 限 的 ， 每 个 微 博 的 长 度 限 制 在 
140 个 字符 ， 和 手机 短信 相同 。 博 客 和 微 博 的 比较 可 以 让 我 们 更 容易 理解 Twitter 如 此 流行 背后 的 
原因 : 博客 要 求 良好 的 写作 技巧 和 大 篇 的 内 容 来 填充 页 面 ， 而 微 博 把 内 容 长 度 限 制 为 140 个 字 
符 , 极 大 地 鼓励 了 人 们 发 布 微 博 。 

简单 源 于 Twitter 提供 基于 HTTP 的 开源 API， 并 和 第 三 方 应 用 共享 微 博 。Twitter 的 API 分 为 
两 个 不 同 的 部 分 ， 搜索 API 和 RESTAPI。REST API 为 第 三 方 应 用 访问 核心 Twitter 数据 提供 了 接 
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口 。 核 心 数据 包括 微 博 、 时 间 和 用 户 数 据 。 搜 索 API 提供 了 查询 微 博 的 接口 。Twitter 也 提供 流行 
话题 的 信息 。 使 用 两 种 API 访问 Twitter 都 有 访问 速率 的 限制 ， 但 对 于 那些 加 入 Twitter 白 名 单 的 
应 用 来 说 ， 就 没有 这 个 速率 限制 。API 易 用 和 灵活 特性 极 大 地 鼓励 了 大 量 开 发 者 开发 Twitter 应 用 
程序 。 

9.5.5.3 Twitter 的 功能 

表 9-13 列 出 了 Twitter 提供 的 6 种 核心 功能 ， 其 中 两 种 是 访问 控制 和 API 应 用 。 简 单 和 开放 
是 Twitter 成 功 的 关键 。Twitter 的 核心 服务 非常 简单 : 向 一 组 人 发 送 消息 。 其 他 的 应 用 则 由 第 三 
方 开 发 者 贡献 。Twitter 提供 了 非常 开放 的 API， 第 三 方 开发 者 可 以 开发 很 强 的 客户 端 或 者 应 用 。 
Twitter 中 用 户 之 间 的 连接 不 是 真实 社会 中 社会 关系 的 反映 ， 用 户 可 以 把 现实 生活 中 不 认识 的 人 加 
为 粉丝 。 用 户 并 不 一 定 用 真名 ， 而 且 即 使 使 用 了 真名 ， 也 没有 有 效 的 方式 把 他 们 识别 出 来 。 自 
2009 年 以 来 ，Twitter 为 名 人 或 者 官方 代理 提供 了 认证 功能 。 然 而 ， 在 Twitter 上 提供 个 人 信息 仍 
然 存 在 隐私 问题 。 


表 9-13 Twitter 的 功能 和 实现 























功能 | 实 现 
个 人 资料 页 简单 个 人 资料 ， 照片 、 简 介 、 关 注 列表 、 粉 丝 列表 、 用 户 消息 发 布 时 间 
社会 图 遍历 通过 用 户 个 人 资料 页 上 的 关注 和 粉丝 列表 访问 ， 没 有 访问 控制 
ATLA 内 部 电子 邮件 ， 直接 给 粉丝 发 送 私信 ， 即时 消息 ; 并 不 是 真正 的 即时 ， 可 以 使 用 直接 消息 实 
Hs 公共 消息 板 : 消息 时 间 ， 带 有 访问 控制 
分 享 信息 。 ”| 相册 ; 第 三 方 应 用 ， 如 Twitpic， 没 有 结合 访问 控制 ; 链接 : 微 博 链接 到 外 部 URL 
访问 控制 。 | 个 人 资料 页 上 的 消息 恬 布 时 间 可 以 设置 两 种 层次 的 访问 控制 ， 私 有 和 公共 
APL 应 用 移动 客户 端 、PC 客户 端 、 照 片 分 享 、 自 动 新 闻 推送 





Twitter 并 不 是 一 个 完全 可 信 的 网 络 ， 也 不 是 基于 可 靠 的 熟人 关系 。 考 虑 两 种 类 型 的 账户 : A 
共和 受 保 护 的 账户 。 公 共 账 户 的 更 新 对 所 有 人 来 说 都 是 可 见 的 ， 而 对 于 受 保 护 的 账户 来 说 ， 只 有 
那些 认证 过 的 用 户 才 可 以 看 到 他 们 的 更 新 。 为 了 支持 用 户 验 证 过 程 ，Twitter 提供 了 两 种 新 功能 : 
Twitter 列表 和 位 置 。Twitter 列表 人 允许 用 户 建立 一 个 Twitter 账户 的 列表 ， 帮 助 用 户 组 织 他 们 关注 
的 人 ， 也 可 以 支持 基于 位 置 的 服务 。 使 用 Twitter 服务 ， 那 些 使 用 GPS 协助 的 位 置 敏 感应 用 可 以 
大 幅度 简化 。 

9.5.5.4 Twitter 应 用 

Twitter 有 很 多 有 趣 的 应 用 。 例 如 ， 借 助 公众 意见 来 确定 商业 或 者 时 尚 趋势 ， 或 者 找 出 流行 音 
乐 和 电影 。2008 年 ， 美 国 总 统 大 选 活动 期 间 ，Twitter 被 用 来 吸引 年 轻 人 ， 从 而 传递 当时 的 总 统 
候选 人 奥巴马 的 “Change” 理 念 。Twitter 还 提供 了 一 种 在 发 布 微 博时 附带 当前 地 址 的 选项 。 这 
些 应 用 通常 基于 Twitter 提供 的 API 来 实现 ， 这 些 API 支持 REST 调用 。 

Twitter 支持 两 种 API; 普通 API 和 流 式 API。 流 式 API 通过 持久 连接 访问 公共 状态 。@ anywhere 
为 开发 者 提供 了 一 种 整合 外 部 资源 到 Twitter 的 服务 。 最 后 ，Twitter 也 收集 编程 库 信息 来 帮助 创 
建 基 于 Twitter 的 应 用 。 下 面 介 绍 两 种 Twitter 应 用 。 

。 快速 新 闻 发 布 。Twitter 逐渐 成 了 传播 实时 新 闻 最 快 的 方式 。 大 规模 用 户 相 互 协作 使 得 

Twitter 远 远 优 于 大 部 分 新 闻 中 心 。 一 些 新 闻 中 心 也 设立 了 Twitter 账户 来 鼓励 用 户 传播 即 
时 新 闻 。 例 如 ，CNN 维护 45 个 官方 Twitter 账号， 吸引 了 500 多 万 的 粉丝 。 在 很 多 国家 的 
大 选 阶段 ，Twitter 比 新 闻 中 心 吸引 了 更 多 的 注意 力 。 一 些 政府 甚至 警 舍 Twitter com 不 要 
因为 维护 而 中 断 服务 ， 以 不 断 接 收 到 信息 。 上 传 到 Twitter 的 信息 可 能 包括 照片 、 链 接 和 
视频 ， 这 些 信 息 在 Twitter 上 发 布 的 时 间 通 常 早 于 传统 新 闻 媒 体 。 
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。 警报 系统 。Twitter 为 城市 提供 了 一 种 虚拟 连接 居民 的 系统 ， 还 可 以 借助 用 户 产 生 的 大 量 数 
据 提高 警报 系统 的 能 力 。 某 些 城市 已 经 把 Twitter 作为 向 其 居民 发 布 警报 的 平台 。2007 F, 
佐治 亚 理工 的 杀 玫 充分 说 明了 大 学 校园 里 的 安全 问题 。 为 了 把 e2Campus 紧急 通知 网 络 和 流 
行 的 社会 网 络 结合 起 来 ， 美 国 太 平 洋 大 学 ( 林 从 市 ) 实现 了 一 种 基于 Twitter 的 警报 系统 。 


9.6 参考 文献 与 习题 


文献 [8] 涵 盖 了 云 计算 的 原理 和 模式 ， 云 平台 的 设计 和 安全 问题 可 以 参考 文献 [70 ] 。Buyya 
等 人 "提出 了 面向 市 场 的 云 计算 框架 ， 而 云 的 基础 研究 可 以 参见 文献 [1,34,，59 ~62, 69 ~71， 
94], SCHR[28, 33, 48, 56, 59, 61, 63, 67, 68, 93] 研究 了 云 计算 应 用 ,文献 [13, 15, 19 ~ 
23, 30, 35 ~39，52，64，76，79] 研究 了 科研 云 平台 ,文献 [12，24，42] 提出 了 云 平台 的 信任 
模型 ， 文 献 [6，8，16，74] 对 云 支 持 的 普 适 计算 和 移动 应 用 进行 了 研究 。 公 有 云 的 相关 研究 参 
考 文献 [6，8,， 31, 34，48，65] ， 而 私有 云 的 研究 参见 文献 [ 11，72 ] 。 云 混搭 系统 相关 研究 可 
以 参考 文献 [18，88 ] 。 文 献 [14] 报 告 了 谷歌 在 MapReduce 和 BigTable 方面 的 经 验 总 结 。 

Bryant 在 文献 [5] 中 提出 了 DISC 范式 ， 而 文献 13] 介 绍 了 SGI Cyclone。 文 献 [42] 研 究 了 数据 
着 色 和 云 水 印 技术 。 网 格 和 云 性 能 、 模 拟 以 及 基准 测试 方面 的 研究 参考 文献 [9，25，33，50， 
51，67，68，75，89 ，90，93 ] 。 对 于 科学 云 和 应 用 ， 参 考 文献 如 下 : FutureGrid[ 30] ，Grid'5000 
[35] ，Magellan[56] ， 开 放 Circus 和 开放 云 测 试 床 [64] ， 科 学 云 [76] ，Sky 计算 [43 ] Venus-C 
[79]. Wee EUR RSS CMRI 31, 32, 75, 80], BCMK[12, 42, 54, 55, 57, 70, 83] 
研究 了 云 安全 。 云 计算 的 操作 系统 支持 可 以 在 文献 [60，62，72] 中 找到 。Hwany 和 Xu! 对 集 
群 、MPP 和 分 布 式 系统 进行 了 并 行 基准 测试 和 性 能 评估 。 

文献 [45，73，78] 研 究 了 物 联网 。 文 献 [2，81 ，91，92] 研 究 了 RFID。 传 感 器 和 ZigBee Fy 
面 的 技术 材料 可 以 参考 文献 [73 ] ，GPS 相关 介绍 参考 文献 [78 ] 。 文 献 [91] 研究 了 供应 链 管理 问 
题 。CPS 相关 材料 可 以 参考 文献 [17，47 ，85 ] 。 文 献 [4，7，53，86] 介 绍 了 在 线 社会 网 络 。 文 
献 [10，29，40，42，46，49，53，58，82，84] 分 析 了 社会 网 络 。Facebook 的 相关 报告 见 文献 
[23, 26, 27], Twitter 的 相关 资料 见 文献 [16 ，42，66，77]。 面 向 信任 管理 和 社会 网 络 的 P2P 
技术 可 以 参考 文献 [12，24，43，51，54 ]。Kleinberg 在 文献 [44] 中 分 析 了 大 规模 社会 网 络 。 
Reed 在 文献 [69] 中 对 云 、 众 校 和 集群 进行 了 讨论 。 
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习题 


9.1 ”描述 移动 设备 和 远程 云 在 移动 云 计算 中 的 不 足 ， 并 解释 为 什么 卡 内 基 - 梅 隆 大 学 的 Cloudlet 可 以 弥补 
这 些 不 足 ， 从 而 使 得 手持 普 适 设备 可 以 向 云 发 送 请 求 。 

9.2 回答 下 面 关于 GPS 的 两 个 问题 : 

a 从 卫星 技术 、 部 署 体系 结构 、 覆 盖 面 积 、 精 度 、 能 力 和 应 用 领域 6 个 方面 ， 比 较 由 美国 、 俄 罗斯 、 
欧盟 和 中 国 研 发 的 4 种 卫星 定位 系统 。 
b. 在 确定 地 球 表面 的 一 个 三 维 座 标点 时 ， 为 什么 至 少 需要 4 颗 卫 星 的 信号。 

9.3 主动 RFID 和 被 动 RFID 有 什么 不 同 ? 阐述 它们 的 优 劣 势 。 对 主动 和 被 动 CPS 接收 器 进行 网 样 的 对 比 和 
分 析 。 

9.4 比较 Facebook 和 Twitter 在 应 用 方面 的 不 同 ， 并 讨论 它们 长 处 和 不 足 。 

9.5 AuverGrid 的 工作 集 有 三 种 模式 ， 包 括 突 变 (sudden level change) 、 突 发 性 波动 (sudden fluctuation) 和 
iM RAG (gradual level change) 。 这 些 工作 负载 的 模式 是 什么 ? 你 怎样 看 待 它 们 对 性 能 预测 结果 的 
影响 ? 

9.6 物 联 网 和 传统 互联 网 有 很 多 不 同 之 处 。 指 出 它们 的 不 同 ， 并 描述 它们 在 物体 互联 、 基 础 设施 、 网 络 和 
应 用 方面 的 不 同 。 

9.7 区 分 和 比较 下 面 的 专业 术语 : 

a 开源 和 秘 有 操作 系统 
b. 物 联 网 和 信息 物理 系统 
c. 社会 网 络 和 专业 性 网 络 
9.8 回答 下 面 关于 无 线 传 感 器 网 络 的 两 个 问题 : 
a. 从 规模 、 重 量 、 供 电 和 部 署 等 方面 ， 氢 述 三 代 无 线 传感器 网 络 的 特征 ; 
b. 无 线 传感器 网 络 要 求 低能 耗 操作 。 描 述 无 线 传感器 网 络 中 的 用 电 情 况 ， 并 解释 如 何在 三 种 模式 间 周 
期 性 操作 无 线 传感器 网 络 ， 从 而 实现 最 小 耗 电 。 
9.9 在 商品 运输 过 程 中 如 何 使 用 RFID 定位 商品 ? 如 何 使 用 RFID 计算 超市 剩 下 物品 数量 ? 
9. 10 描述 下 面 关 于 IBM 蓝 云 和 RC 云 相关 的 技术 术语 、 功 能 模块 和 云 服务 ， 可 能 需要 查阅 IBM 的 网 站 或 
者 《IBM Journal of Research and Development》 期 刊 。 
a. IBM WebSphere 
b. Tivoli 服务 自动 化 管理 器 (Service Automation Manager, TSAM) 
c. IBM 研究 计算 云 (Research Compute Cloud, RC2) 
d. Tivoli 供给 管理 器 (provisioning manager) 
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e. 带 有 Xen 的 Linux 

9.11 就 云 计算 在 处 理 物 联网 数据 的 可 能 应 用 开展 研究 〈 见 图 9-19) 。 提 出 一 种 解决 方案 ， 指 出 可 能 需要 的 
云 资 源 。 为 了 简化 问题 ， 可 以 把 传感器 数据 的 范围 缩小 。 

9.12 研究 HPC 应 用 (9.2.2 节 ) A HTC 应 用 (9.2.3 节 ) 的 性 能 指标 。 在 可 以 访问 的 数据 中 心 或 者 云 平 
台 上 进行 真实 的 HPC 和 HTC 基准 实验 ， 并 给 出 如 何 提高 它们 的 准确 性 和 效率 的 方法 。 从 这 些 实验 出 
发 ， 总 结 新 的 或 者 改进 的 性 能 指标 ， 以 刻画 更 多 的 机 器 特征 和 应 用 参数 。 

9. 13 ”简要 说 明 Facebook 和 Twitter 是 如 何在 OSN 应 用 中 处 理 安全 、 隐 私 和 版 权 侵 犯 问题 的 ， 并 给 出 通用 的 











技术 和 针对 每 种 系统 的 特定 技术 。 
9.14 “对 左边 的 20 个 术语 ， 从 右边 的 栏 中 选择 最 合适 的 描述 。 

E 术 语 Ho ] 
— Rackspace (a) 就 注册 用 户 来 说 ， 世 界 上 最 大 的 社会 网 络 | 
__ Cloudlet (b) 主要 用 于 上 传 视频 片段 的 社会 网 络 
蓝牙 (O 互联 网 的 自然 延伸 ， 人 处 在 控制 环 中 
HRA (d) 用 于 微 博 和 新 闻 提醒 应 用 的 社会 网 络 
WiMAX Ce) 在 物 联网 构建 中 使 用 的 无 线 电 标签 技术 
__ RFID (1) 支持 移动 终端 远程 云 访问 的 基础 设施 
ZigBee (g) 由 IBM 建立 的 私有 云 ， 用 于 研发 
GPS (h) 互联 网 的 延伸 ， 连 接 所 有 的 物体 、 人 、 动 物 和 产品 
L Facebook G) 一 种 快速 和 灵活 的 互联 网 访问 技术 
YouTube G) 扩展 性 最 好 的 无 线 传感器 网 络 
Witter (k) 宽带 互联 网 访问 的 固定 无 线 技术 
_ _ Nebula (1) 用 于 位 置 敏感 应 用 的 卫星 技术 
__cps (m) 在 短 距 离 应 用 中 用 于 取代 电缆 的 无 线 技术 
— RC (n) 在 商业 领域 使 用 最 多 的 SaaS 应 用 之 一 
LinkedIn (0) 互联 网 上 主要 用 于 专业 互联 的 社会 网 络 
WF (p) 一 种 专注 于 定制 化 社会 服务 的 社会 网 络 网 站 
___cRM (q) 最 初 用 于 航天 和 天 气 预报 应 用 的 大 规模 私有 云 
_ MySpace (x) 用 于 laS 应 用 、 以 “ 即 充 即 用 ”收费 的 公有 去 | 








9. 15 ”对 每 个 问题 从 多 个 选项 中 选择 一 个 最 佳 答案 ; 
1. 下 面 关 于 社会 网 络 属性 的 描述 ， 哪 个 是 正确 的 ? 
a 结构 润 可 以 通过 与 其 他 节点 建立 更 多 的 连接 来 消除 。 
b. 本 地 的 桥 连接 仅 包含 一 条 边 ， 就 像 桥 一 样 。 
ce 中 心性 和 节点 的 度 无 关 。 
2. 卡 内 基 - 梅 隆 大 学 的 Cloudlet 原型 没有 使 用 哪 种 设计 选择 ? 
a. 使 用 一 个 来 自 移动 设备 的 导 人 式 虚 拟 机 。 
b. 在 Cloudlet 主机 上 部 署 一 个 基础 虚拟 机 。 
c 一 个 导入 的 虚拟 机 一 旦 部 署 在 Cloudlet 上 就 不 可 以 移 除 。 
3. 下 面 关 于 物 联 网 的 叙述 娜 个 是 正确 的 ? 
a. 物 联网 并 没有 在 供应 链 管 理 中 使 用 GPS 技术 。 
b. 智能 电网 没有 使 用 太阳 能 和 风能 技术 。 
c. ZigBee 网 络 比 Wiki 和 蓝牙 网 络 具 有 更 好 的 扩展 性 。 
4. 下 面 关 于 Facebook 应 用 的 评价 哪个 是 正确 的 。 
a. Facebook 最 流行 的 应 用 是 增强 沟通 。 
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b. Facebook 不 提供 送礼 物 和 约会 服务 。 
c. Twitter 比 Facebook 对 用 户 个 人 资料 的 支持 更 好 。 
9.16 在 谷歌 上 搜索 下 面 两 个 大 规模 私有 云 的 技术 信息 ， 描 述 从 可 靠 源 获 取 的 信息 ， 并 尽量 给 出 云 平台 体系 
结构 和 基础 设施 以 及 主要 应 用 领域 。 
a. 美国 NASA RERBA Zo 
b. 欧洲 CERN 部 署 的 私有 云 。 
9.17 简要 描述 下 面 关 于 SCI Cyclone 云 引擎 的 技术 术语 、 功 能 模块 和 云 服务 : 
a 向 上 扩展 ， 向 外 扩展 ， 以 及 云 服务 器 的 混合 管理 。 
b, SGI Altix 服务 器 和 ICE 集群 。 
c. Cyclone HPC 应 用 。 
9.18 ”该 问题 和 例 9. 13 相关 ， 从 数学 上 证 明 攻 击 账户 ( 子 图 #8) 和 目标 用 户 的 识别 问题 是 可 解 的 。 
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